Опубликовано в журнале НЛО, номер 4, 2005
Маргерит Юрсенар вложила в уста римского императора Адриана замечательные слова: “Все более и более я чувствовал необходимость собирать и сохранять древние свитки, поручать добросовестным писцам снимать с них новые копии. Эта прекрасная задача казалась мне не менее важной, чем помощь ветеранам или выплаты многодетным бедным семьям; я говорил себе, что хватило бы нескольких войн, нищеты, которая последует за ними, периода невежества или дикости под управлением нескольких дурных властителей, для того, чтобы навсегда погибли мысли, дошедшие до нас благодаря непрочному сочетанию чернил и растительных волокон”1.
Многое ли изменилось с тех пор?
В то время как электронные издания без устали рекламируются компьютерными фирмами, журналистами, политиками, почти полное молчание окружает проблему сохранения и доступа к информации, имеющей электронную форму.
Как правило, сторонники перевода всей возможной информации на компьютерные носители избегают говорить о малой продолжительности жизни, например, форматов файлов, используемых для электронных публикаций или о нестабильности гиперссылок. Но и их противники больше спорят о статусе электронных публикаций по сравнению с обыкновенными, чем обращают внимание на эфемерный характер электронных архивов, хотя указание на эту важную особенность могло бы придать их аргументам значительно больший вес.
Возникает достаточно парадоксальная ситуация, серьезность которой во много раз усугубляется развитием Интернета. Прежде всего, налицо рост объема оцифрованной информации, для доступа к которой не обойтись без многочисленных “обязательных посредников” в виде программных систем, технических устройств и т.п., что резко отличает эту информацию от обычной печатной продукции. При этом программные средства, равно как и технические устройства, имеют ограниченное время жизни, редко превосходящее десяток лет, а под влиянием технического прогресса и экономических императивов они меняются и того чаще.
Если говорить только о физической сохранности, следующие данные характеризуют основные виды носителей, используемых для хранения оцифрованной информации. Цифры, приведенные ниже, указывают соответственно на средний и максимальный (при идеальных условиях хранения) срок жизни того или иного носителя (в годах).
Дискета — 2 (10).
Жесткий диск — 3 (10).
Различные виды оптических дисков — 5—30 (100) — в зависимости от технологии изготовления.
Магнитная лента — 25 (50).
Микрофильм — 50 (200).
В силу того, что на эти технические ограничения накладываются и другие, связанные с изменениями, охватывающими все уровни доступа к информации, — на практике сохраненные на том или ином носителе данные могут стать недоступными гораздо быстрее. Уже сейчас трудно найти дисководы для чтения дискет 5 1/4 дюйма, а о стандартных дискетах на 400 Кб и восьмидюймовых дискетах вообще мало кто вспоминает.
Тексты, написанные в форматах Word 3 и MacWrite, независимо от носителя, обычно рассматриваются как нечитаемые, поскольку эти программы несовместимы с современными системами, а программы по работе с текстами, пришедшие им на смену, не способны — и к тому же нередко это запрещено законом об авторском праве — интерпретировать эти старые версии.
Нередко утверждается 2, что нестабильность носителей и программного обеспечения свидетельствует лишь о том, что информационная индустрия не вышла еще из “подросткового” возраста, однако приходится признать, что суперкомпании, активно старающиеся монополизировать рынок, но при этом весьма нестабильные сами, делают все, чтобы форматы файлов или протоколы архивации устаревали за 2—3 года. Эта погоня за новизной ведет к тому, что становится затруднительным использовать персональный компьютер (тем более, в составе Сети), достигший более чем 3— 4-летнего возраста, что также свидетельствует об эфемерном характере электронной информации.
Вдобавок к прочим факторам, Интернет оказывает существенное влияние на то, какие формы представления информации находятся в обороте. “Интернавты” обмениваются “приложениями”, которые в любом случае должны использовать файлы, соответствующие определенным взаимоприемлемым условиям. Связанными с этим ограничениями (налагаемыми, например, протоколами обмена, пропускными способностями сетей, соображениями безопасности систем и т.д.) оказывается невозможно пренебречь.
С некоторым допущением можно разделить существующие стандарты на 3 группы: международные нормы, выработанные организациями, наделенными соответствующими полномочиями (скажем, ASCII, выработанный ISO), стандарты, выработанные коллегиально тем или иным объединением (W3C, Unicode), и, наконец, авторские стандарты, разработанные частными фирмами и обыкновенно защищенные законом об авторском праве. Документация при этом может быть опубликована (PostScript и PDF, опубликованные Adobe) или нет (Microsoft Word). Формат файла называется нейтральным, если он полностью независим от операционной системы (что является, скорее, исключением).
Ни одна из этих норм не является абсолютно обязательной. В то время как нормы, приводящие к большей совместимости, внедряются с трудом (например, известная норма NFZ 42-013 3, требующая публикации документации и совместимости последующих версий с ранее используемыми форматами), право свободного выбора отступает перед банальной статистикой — если сегодня, скажем, 90% моих адресатов используют Word, допустим, XY для написания документов и если менее 10% из них умеют конвертировать файл в формат HTML, чтобы прочитать его при помощи навигатора, я куплю Word XY, а на следующий год Word YZ, чтобы уменьшить свои “расходы на коммуникацию” с коллегами, даже если я сам вхожу в то незначительное меньшинство, которое использует единственную издательскую систему, существующую более 15 лет, а именно LaTex. В итоге “нормализация”, обещанная отцами-основателями Интернета, которым было дорого понятие “универсального формата”, идея совместимости вновь разрабатываемых форматов со старыми, видимо, оказалась под угрозой с момента своего появления, поскольку эти благие намерения несовместимы с потребностью компаний извлекать доход из авторских форматов, меняющихся постоянно, хотя бы для того, чтобы не иссякал источник пожизненной ренты.
Отношение к этой ситуации со стороны специалистов архивного дела, музейных, библиотечных работников и вообще всех тех, чья профессиональная деятельность связана с долгосрочным хранением информации, носит достаточно парадоксальный характер.
Экспертов, которые тратят годы, чтобы отличить книгу, опубликованную в 1545 году в Париже, от ее “пиратской” версии, опубликованной в Женеве два года спустя, или работают над рукописями великих писателей XIX—XX веков, кажется, нисколько не беспокоит не только то, каким образом сохранятся для потомства рукописи их современников, но и то, будет ли возможно по прошествии нескольких лет прочитать их собственные электронные публикации.
С другой стороны, многие защитники культуры, озабоченные ее передачей следующим поколениям, с пренебрежением относятся к ее сегодняшнему эфемерному состоянию, к судьбе однодневок, — по их мнению, обреченных на гибель, — в то время как можно было бы ожидать от них куда более заботливого и бережного отношения, желания сохранить то, что, собственно, оказалось эфемерным не по своей вине, безотносительно к качеству. Можно задать себе вопрос, являются ли эти эрудиты действительно защитниками культуры, как они часто говорят о себе сами, или, скорее, рантье, живущими на проценты от культуры прошлого? Ведь культура современности не интересует их, кажется, просто потому, что ее будут изучать не они, а специалисты будущего.
Другая сторона парадокса: первыми, кто обратил внимание на необходимость что-то делать, для того чтобы сохранить хотя бы на ближайшие десятилетия доступ к эфемерной, ускользающей культуре сегодняшнего дня, были специалисты по информатике и некоторые журналисты. Необходимо, без сомнения, упомянуть статью Х. Фишера, президента Международной федерации ассоциаций мультимедиа, напечатанную в газете “Либерасьон” 4. Можно сослаться также на несколько публикаций в той же газете 5, упомянуть работы Ж.П. Сме и А.-Л. Сибони о влиянии законодательства об авторском праве и патентах на судьбы информатизации общества 6.
Проблема в том, что дискуссии на эту тему и констатации опасности недостаточны, необходимо действовать. Можно было бы ссылаться на трудные времена и стоически претерпевать происходящее, если бы описанная ситуация была характерна для тех или иных отдельно взятых стран. В действительности где-то дело обстоит несколько хуже, где-то — несколько лучше, но в целом проблема носит глобальный характер. Последствия критическим образом зависят от принимаемых в данное время социально-политических и технических решений.
Эволюция форматов, кодировок и материальных носителей заставляет современных “электронных архивистов” — вне зависимости от того, являются ли они библиотечными работниками или, как бывает все чаще, специалистами по информатике, осознавшими важность проблемы, — систематически осуществлять конверсию документов, переходить от старых форматов, обреченных на забвение, к новым, но тоже далеко не вечным.
Очевидно, что в подобной ситуации, нередко требующей довольно оперативных действий (хотя критичность ее зачастую недооценивается), значительная часть электронных документов рискует оказаться “за бортом” просто потому, что их забыли (не успели вовремя) перенести на новые носители или преобразовать в совместимый с новой системой формат. Меньше всего рискуют не те документы, которые представляют ценность в долгосрочной перспективе, а те, которые вызывают наибольший интерес потребителя (измеряемый обычно количественно — по числу обращений). В мире этой потребительской логики, которая применима в одинаковой степени к литературным текстам, современным или классическим, переведенным в электронную форму, к научным публикациям и к историческим архивам, страны, языки, научные специальности оказываются в далеко не равном положении.
Древнеперсидский текст или теорема, опубликованная на русском языке, имеют мало шансов быть переведенными в электронную форму из-за радикальной маркетинговой политики Билла Гейтса, стремящегося приблизить электронное будущее человечества (можно вспомнить о его странной идее “электронного портфеля” для детей, существующего под неусыпным вниманием родителей и Windows). Ключевые события современности оставляют все меньше “бумажных” следов (скажем, около 90% документов, связанных с “Войной в заливе”, имели электронную форму), и историки имеют мало шансов обеспечить сохранность электронных архивов.
Следует признать, что попытки что-то предпринять ведутся по многим направлениям, но еще больше направлений остаются неисследованными. Решения ищутся почти вслепую. Многие решения, неплохие в теории, легко извращаются на практике или приходят в столкновение с непредвиденными трудностями.
Можно вспомнить новые нормы, предложенные для работы с гипертекстами, как, например, стандарт SML и связанный с ним XSL 7. Их целью было ограничить риски, связанные с несовместимостью форматов и представления цифровой информации, упомянутые выше. Но на практике использование разработанного частными компаниями программного обеспечения ведет к тому, что риски появляются вновь (например, легко убедиться, что Lotus XL и Sablatron могут давать несовместимые результаты).
Необходимо, конечно, упомянуть различные, более или менее прямолинейные, попытки массовой архивации электронных документов. Наиболее крупный проект — это Internet Archive 8. Созданный в апреле 1996 года в Сан-Франциско, он осуществляет каждые 6 месяцев архивацию всей Сети. Целью является обеспечить постоянный доступ исследователям, учащимся, историкам к созданной таким образом библиотеке.
Интернет-архив осуществляет некоторую классификацию данных. Например, можно произвести селекцию сайтов на заданную тему, такую, как президентские выборы или события 11 сентября 2001 года 9. Интернет-архив позволяет вести исследования по эволюции языка в Интернете или по изменению количественных характеристик Сети.
Впрочем, используемые при этом средства идентификации документов являются не более совершенными, чем поисковые системы, обычно используемые в Интернете. Существующие поисковые системы индексируют, по разным данным, от 40 до 60% страниц открытого доступа.
В последнее время Internet Archive столкнулся с юридическими проблемами: с одной стороны, по вопросу использования архивированных страниц в качестве судебных доказательств и, с другой, — с исками по поводу архивации без согласия держателей авторских прав.
На практике данные о помещенных в Интернете сведениях накапливаются системой Alexa и затем архивируются по истечении шестимесячного срока 10. В день собирается порядка 100 Го данных. К 2004 году объем архива составлял около 300 То.
Среди менее значительных по объему проектов можно упомянуть шведский проект Kulturarw 3 11 и австрийский проект AOLA 12. Архивируются главным образом соответственно шведские и австрийские сайты. Важной особенностью этих проектов является систематическое использование метаданных (объем страницы, операционная система, используемая сервером, дата, время создания и другая дополнительная информация, значительно облегчающая поиск и последующий доступ).
В статье А. Ашенбреннера перечислен ряд аспектов, на которые следует обращать внимание при создании архива 13. В первую очередь, это цели, которым должен служить архив. Далее, следует определить, каким образом будут накапливаться необходимые данные. Ашенбреннер различает “пассивное” накопление (данные присылаются на сервер и затем архивируются) и “активное”, основанное на поиске данных по определенным критериям, который производится автоматически или вручную. Принимая во внимание объем данных, необходимо заранее определиться со способом их хранения, обращая особое внимание на “время жизни” материальных носителей, их емкость и условия сохранения устойчивого доступа в будущем. Все эти аспекты должны приниматься во внимание при расчете стоимости обслуживания архива (например, выбор такой операционной системы, как Windows, приведет к необходимость ее обновления в ритме, предусмотренном Microsoft). Необходимо принимать во внимание аспекты, связанные с авторскими правами. Может оказаться целесообразным предусмотреть определенную иерархизацию архива. Данные, к которым обращаются часто, могут быть помещены в зону быстрого доступа, в то время как другие существуют только в виде архивированных файлов на носителях длительного хранения. Ведутся, конечно, работы по увеличению “времени жизни” и надежности различных материальных носителей информации. Здесь можно упомянуть так называемый century disk 14. Гравировка осуществляется плазменным методом на стеклянном носителе. Предполагается, что диск будет читаться любым читающим устройством, ориентированным на обычный CD. Диск способен выдерживать температурные колебания в интервале от –150╟ до +350╟ С. Французская национальная библиотека планирует сохранение более 86 000 произведений на этом виде носителей.
Еще одним вариантом немагнитного носителя является HD-ROM. Запись осуществляется на стойких материалах (вплоть до стали) гравировкой по специальной технологии 15. “Время жизни” HD-ROM оценивается в сотни лет. Для сохранения доступа к информации инструкция для ее прочтения хранится на самом диске. Используются три вида записи: бинарная (с плотностью до 1 Го/см2), алфавитно-цифровая и графическая (две последние допускают прочтение с помощью микроскопа).
Все эти проекты и технические разработки, безусловно, заслуживают упоминания, поскольку они — часть решения проблемы сохранения или даже спасения информации в компьютерный век. Всем им, однако, свойственны некоторая наивность, типичная для чисто технического подхода узость взгляда, нежелание принимать во внимание неинженерные аспекты проблемы. Какая судьба ждет архивы, переведенные на century disk, если, например, читающие устройства для CD-ROM будут в результате развития науки, экономических факторов и конкурентной борьбы вытеснены какими-то другими?
Инженерными путями решения ни в коем случае не стоит пренебрегать, но многообразие проблем требует понимания ситуации во всей ее сложности и соответствующего “многопрофильного” ответа.
Сам факт перевода информации на компьютерные носители приводит к тому, что на ее дальнейшую судьбу начинают влиять экономические, социальные и политические факторы, воздействие которых на традиционные архивы приводит к иным результатам или вообще является незначительным. Приведем в качестве характерного примера исследование Ф. Лалу по нестабильности интернет-адресов и соответствующих им ссылок 16. Очевидно, что эта нестабильность — один из существенных факторов, влияющих на “время жизни” электронных публикаций, или, в более прагматическом плане, на стоимость их поддержания и обслуживания. При этом информация о стоимости обслуживания интернетных публикаций, сайтов, компьютерных и программных систем, принимающая во внимания все или по крайней мере основные факторы, является крайне труднодоступной. Остается только надеяться, что в ближайшем будущем появятся действительно академические по своей многосторонности и объективности исследования сравнительной стоимости коммерческого и так называемого “свободного” программного обеспечения, — принимающие во внимание, в частности, расходы, связанные с безопасностью системы, потерей данных, оплатой квалифицированных сотрудников и пр.
Научная и техническая стороны проблемы — лишь грани, элементы того комплексного подхода, в котором нам видится если не решение, то, по крайней мере, шанс на решение проблемы сохранения культурного наследия в компьютерный век. Не менее существенное внимание должно уделяться организационным, экономическим и социальным аспектам, разумеется, тесно переплетенным между собой.
Возможно, стоит подумать о сохранении не только электронных архивов, но и программного обеспечения, операционных систем и даже старых, но функционирующих компьютеров, которые могли бы быть использованы для прочтения данных, не поддающихся прочтению более современными средствами. Такой музей компьютеров и программных продуктов мог бы служить естественным дополнением к электронному архиву и помимо инструментального значения для прочтения информации мог бы также обеспечивать — хотя бы частично — и его финансирование.
Большое значение имеет налаживание взаимодействия между электронными архивами. Из-за легкости процесса копирования утрата копии файла сама по себе не является катастрофой — при условии, что существуют другие сохраненные копии (возможно, принадлежащие другому архиву), на основе которых можно восстановить утраченный документ.
Накопив опыт взаимодействия, профессионально организованные электронные архивы могли бы использовать его в дальнейшем на коммерческой основе для поддержания архивов непрофессиональных — например, бизнес-архивов (хотя во многих странах при организации такой работы могут возникнуть специфические трудности — например, юридического порядка). Избегая чрезмерной детализации, укажем на два направления дальнейшего развития электронных архивов, которые представляются особенно перспективными.
За последние три-четыре года на Западе во много раз выросло количество компаний (и представляющих их сайтов), которые занимаются “data recovery” — восстановлением поврежденных данных и доступа к ним 17.
В настоящее время быстро развивается такая область, как страхование электронных данных; я вкратце упоминал об этом в 2001 году 18, а в 2002 году была опубликована обзорная статья К. Савеца, специально посвященная такому страхованию 19. Интересно, что, по данным Савеца, прямая утрата или повреждение данных составляют сравнительно небольшую часть страховых случаев; гораздо большее значение имеет страховка от различных штрафных или компенсационных выплат, связанных с нарушением авторских прав, содержанием сайтов и утратой доступа к коммерческим сайтам.
Один из наиболее острых вопросов — подготовка специалистов, способных работать с электронными архивами, и адекватное повышение квалификации архивных работников, получивших образование в “доэлектронные” времена. Вряд ли речь должна идти о создании единой специальности “специалиста по электронным архивам”: “стричь всех под одну гребенку” — дело слишком дорогое, да и ненужное. Работа с электронными архивами в современных условиях прямо связана со многими уже существующими специальностями в области библиотечного дела, историко-архивной работы, а также — с другой стороны — в области информатики в широком смысле слова (мультимедийные технологии, базы данных…), поэтому целесообразнее было бы учесть проблематику электронных архивов в программах соответствующих специальностей. Открывающиеся новые возможности применения знаний — такие, как data recovery или страхование данных, — могли бы сыграть существенную роль в привлечении в эту область одаренных и высокомотивированных студентов.
Вопросы подготовки и повышения квалификации специалистов, естественно, решаются в рамках образовательной системы каждой конкретной страны. Однако опыт, накопленный ныне существующими архивами, музеями и библиотеками разных стран, работающими с электронными данными (и, разумеется, опыт собственно электронных архивов), может и должен быть использован для определения потребности в специалистах раз-личного профиля. Этот вопрос уже обсуждался на международных конференциях по сохранению культурного наследия в Интернете — таких, как “Museums in the Web”20 или International Cultural Heritage Informatics Meeting (ICHIM) 21.
В дальнейшем архивные структуры или работающие в них специалисты могли бы принимать участие в решении технических проблем и в обсуждении вопросов, требующих междисциплинарной экспертизы. Для самих же архивов уже сегодня желательно иметь в штате компьютерщиков соответствующего профиля.
Рекомендации по созданию электронных архивов, упомянутые выше 22, сегодня, на наш взгляд, необходимо рассматривать в более широком контексте. Следует расширять взаимодействие архивов с другими — архивными и неархивными — организациями. Среди экономических аспектов необходимо учитывать не только бюджетно-расходную сторону электронных архивов, но и открывающиеся при их развитии новые возможности в сфере услуг и привлечения новых источников финансирования, в том числе и иностранных.
Можно по-разному относиться к наступлению века информационных технологий, но, как бы то ни было, он уже настал — со всеми его достоинствами и недостатками. Как гласит известное высказывание, будущее не обязательно лучше или хуже прошлого — оно просто другое. Поэтому не нужно впадать ни в эйфорию, ни в пессимизм. Рецепт действий — тот же, что и всегда: стремиться к ясному пониманию возникающих проблем и честно делать свое дело.
___________________________________________________________________________
1) Yourcenar M. Mémoires d’Hadrien. Paris, 1987.
2) Norman D. The Invisible Computer. Cambridge, MA: MIT Press, 1998.
3) http://www.afnor.fr/portal.asp.
4) Ficher H. Le paradoxe du numérique et oubli // Liberation. 1999. 24 Novembre.
5) Liberation. 2000. 20—22 Julliet.
6) Sibony A.-L., Smets J.P. Le droit et la memoire а l’ere numerique // Le Monde. 2000. 14.09 (http://12emodels.free. fr/accueil/copyright_text-fr.htm).
7) http://www.w3.org/TR/xslt. 8 http://www.archive.org.
9) Lebert M. L’Internet Archive, ou les archives du web depuis 1996 // Editions Actu. 2004. 2 avril. № 93.
10) http://www.alexa.com.
11) Mannerheim J. The WWW and our digital heritage — the new perservation tasks of the library community // Inter-national Federation of Library Associations, IFLA and Institutions eds., 66th IFLA General Conference. Jerusalem, August 2000.
12) http://www.ifs.tuwien.ac.at/aola/.
13) Aschenbrenner A. Long-term preservation of digitall material // http://citeseer.ist.psu.edu/aschenbrenner01longterm.html.
14) Pelletier F. Le century disk et ses dérivés chez digipress // MOS. 1993. № 117.
15) Roger B.L. Durable high-density data storage // http:// citeseer.ist.psu.edu/636608.html.
16) Laloux Ph. Erreur 404 // La Libre Belgique. 2001. 2 Novembre (www.lalibre.be/article.phtml?id=12&subid=179 &art_id=41542&folder_id=53).
17) См., например: http://www.stellarinfo.com, http://www. runtime.org, http://www.drivesavers.com.
18) Soloviev S. Bibliotéque Universelle et Culture de l’Éphémére // Comprendre les Usages de l’ Internet / E. Giuchard (éd.). Paris: Éditions Rue d’Ulm, 2001. P. 59—64.
19) Savetz K. Data Insurance. Cover Your Most Valuable Assets — The Instangible Ones // New Architect. 2002. May (в Интернете: http://www.savetz.com/articles/ newarch_datain surance.php; там же можно найти ссылки на сайты компаний, специализирующихся на таком страховании).
20) См. сайт этой конференции: http://www.archimuse.com/ conferences/mw.html.
21) См. сайт этой конференции: http://www.archimuse.com/ conferences/ichim.html.
22) Aschenbrenner A. Op. cit.