Меры и способы сохранения информации
Любая социальная деятельность людей построена на создании, передаче, обработке и хранении информации. Обеспечение сохранности информации производится на основе применения специальных мер организации хранения и подготовки, восстановления и регенерации информации, специальных устройств резервирования. Качество обеспечения сохранности информации зависит от её целостности (точности, полноты) и готовности к постоянному использованию.
В первой половине прошлого века фотоматериалы зарекомендовали себя как надёжные носители информации, способные в специальных условиях долговременно её сохранять. Эта технология поучила название микрофильмирование. Под микрофильмированием понимается совокупность процессов изготовления, хранения и использования носителей микроизображений информации. Микроизображением считается изображение, которое можно прочитать только при помощи оптических средств при увеличении до 40 крат (40x).
Фотографическая запись позволяет хранить микроизображения документов в виде микрофильмов и микрофишей, т.е. микроформ. Изображение обычной страницы документа формата А4 в микроформе может занимать площадь менее 1 см2. Микроформы служат защитной копией подлинника.
Первые микрофильмы появились в 1920-х – 1930-х годах. Фотографические носителе постоянно совершенствовались. В то же время с 1930-х по 1990-х годы в нашей стране для микрофильмирования производились и использовались пленки на основе ацетатов целлюлозы.
В 1980-х годах западные фирмы (Kodak и др.) начали выпускать плёнки на полиэфирной (polyester) основе. Их долговечность в десять раз выше, чем у ацетатных, что объясняется их большой физической прочностью и химической стабильностью основы, а также большей компактностью. Именно их до сих пор рекомендуют для создания страховых и архивных фондов. По мнению ряда специалистов, начиная с 1950-х годов и по настоящее время, микроформы остаются лучшим способом сохранения большинства документов для будущих поколений.
В микрофильмировании используют микрофильмы рулонные, микрофильмы в отрезках, микрофиши, микрокарты и др.
Рулонная микрографическая пленка изготавливается шириной 16, 35 или 105 мм и длиной до 305 м. Форматная пленка – в виде отдельных листов определенных форматов. Основной международный стандартный размер микрофиши – 148х105 мм. Микрофиша имеет маркировку, позволяющую на глаз установить её тему или род соответствующего документа, помещенного на ней.
Микроформа может представлять как полноразмерную копию, так и с уменьшением в масштабе от 1:9 до 1:30. По виду изображения микроформы являются негативными или позитивными.
Поиск нужного изображения производится пользователем с помощью читального аппарата (экран, соединённый с увеличителем). Этот процесс может управляться компьютером с выводом изображения на экран монитора.
Большинство ЭИР постоянно пополняется и длительно хранится на различных носителях. Важное значение для данных имеют методы их хранения и сохранения. Специалисты предлагают несколько методик обеспечения сохранности машиночитаемых данных вообще и в Интернете в частности. Среди них следующие:
● постоянная миграция материала к наиболее современным аппаратурно-программным средствам (т.е. непрерывная перезапись ресурса);
● сохранение исходного формата и средств раскрытия содержания материала;
● копирование (архивирование);
● защита от несанкционированного использования, замены, искажения и удаления;
● защита от компьютерных вирусов и неполадок в электрических и компьютерных сетях.
Копирование информации подразумевает создание рабочих, резервных и страховых архивов.
Под термином «архив» понимается совокупность электронных данных (в том числе программ), организованная на машиночитаемых носителях информации с целью обеспечения в случае необходимости их дальнейшего использования.
Архив – файл, содержащий один или несколько файлов в сжатой или несжатой форме и информацию, связанную с этими файлами (имя файла, дата и время последней редакции и т.п.). Архив – страховочная копия, используемая в случае утраты или порчи основной машиночитаемой информации, а также для длительного её хранения в месте, защищённом от вредных воздействий и несанкционированного доступа.
При этом «архивация» означает процесс создания на машинных носителях информации копий машиночитаемых ресурсов (данных, документов, программ) с помощью специальных программных средств. Компьютерными архивами информации, как правило, являются, электронные каталоги, базы и банки данных, а также коллекции любых видов информации.
Различают оперативные данные, условно-постоянную и другую информацию. Первые характеризуются значительной, по сравнению со вторыми, скоростью изменения своих параметров (объёма, содержания и др.). Они требуют более частого обновления копий, и, следовательно, имеют короткий период перезаписи и хранения (шаг резервного копирования).
Под резервным копированием понимают создание копий файлов с целью быстрого восстановления работоспособности системы в случае возникновения аварийной ситуации. Эти копии определенный срок хранятся на резервных носителях, которые периодически перезаписываются. Для обеспечения надёжности защиты данных некоторые специалисты рекомендуют иметь по три резервных копии последних редакций файлов.
При работе на ПК необходимо периодически проводить дефрагментацию дисков. Программа, выполняющая эту функцию, входит в состав всех ОС типа Windows. Путь к ней через меню «Программы» – «Специальные» – «Служебные». Вероятность успешного восстановления информации выше, если она хранится в менее фрагментированном виде. Кроме того, регулярное использование программы дефрагментации позволяет минимизировать время обращения к жёсткому диску при работе.
Простым и надёжным способом сохранения и восстановления системы является репликация (клонирование) жёстких дисков. Специальная программа (например, AcronisTrueImage, PowerQuestImagePro и др.) формирует единый сжатый файл, содержащий образ диска со всей имеющейся информацией. Этот файл можно записать на сменный носитель или в отдельный раздел того же жёсткого диска, обозначенный как другой дисковод. При этом достигается быстрое восстановление после сбоев, вирусных атак или проблем с оборудованием.
Резервное копирование делится на: полное, инкрементальное и дифференциальное. При полном резервном копировании создаётся копия всех данных, подлежащих резервному копированию. Недостаток процедуры – необходимость значительного времени на её осуществление и значительного числа и (или) объёма резервных носителей; достоинство – быстрое восстановление информации.
При дифференциальном копировании дублируются только файлы, созданные или измененные со времени проведения последнего полного копирования. Чем больше это время, тем дольше будет осуществляться дифференциальное копирование. В случае краха системы для восстановления данных приходится задействовать последние полную и дифференциальную копии.
При инкрементальном копировании дублируются только те файлы, которые были созданы или изменены после последнего полного, дифференциального или инкрементального копирования. Время выполнения такого копирования относительно мало, но в случае утраты информации её придётся восстанавливать, используя последнюю полную и все последующие инкрементальные копии – самая длительная процедура восстановления.
Наиболее приемлемая схема, минимизирующая время резервного копирования данных и их восстановления – еженедельное полное и ежедневное инкрементальное копирование.
Архивное копирование– процесс создания копий файлов, предназначенных для долговременного или бессрочного хранения. Носители, на которых они хранятся, называют архивными. Он предполагает более строгое структурирование информации, высокую степень автоматизации процесса архивирования и восстановления данных, а также работу с большими объёмами информации.
Периодическое проведение архивного копирования позволяет иметь копии нескольких разных версий одних и тех же файлов. Как правило, архивируются данные, которые никем не модифицировались 90 или более дней. Особо важные файлы иногда помещаются в архив независимо от времени их последней модификации. Считается, что для обеспечения надёжности хранения следует иметь 2–3 архивных копии всех редакций файлов, подлежащих архивированию.
Архивное копирование тоже может быть полным, инкрементальным и дифференциальным. При организации процесса архивирования делаются полные копии, к которым, как правило, раз в месяц добавляются инкрементальные копии. Количество архивных носителей довольно быстро растёт.
Одним из родоначальников теории хранилищ был Билл Инмон. Современные системы хранения данных содержат архивируемую информацию на текущий момент, позволяют возвращаться на день, неделю, на 30, 90 и более дней назад, что соответствует периодам обновления данных в архивах.
Рассмотрим эти виды архивов подробнее.
Рабочие архивы служат для автоматической записи создаваемых постоянных или временных данных, в дальнейшем не используемых или переходящих в долговременные данные. Их рекомендуется создавать и актуализировать непосредственно по окончании ввода порции данных или смены. Рабочие архивы формируются на технологические материалы и БД, подготавливаемые, редактируемые и оперативные документы и создаются в отдельных каталогах на данном или другом компьютере, сервере и перезаписываемых внешних носителях данных.
В качестве рабочих копий для обслуживания пользователей, и распространения в качестве издательской продукции (дистрибутивные копии) используют позитивные микроформы.
Страховые архивы используют для повышения надёжности и долговременного хранения данных, представляющих особую ценность или имеющих статус ограниченного доступа. К ним относятся электронные каталоги, базы и банки данных, программные продукты, полнотекстовые и мультимедийные и административные (документооборот, бухгалтерия, кадры) данные.
В страховых (архивных) фондах хранят эталонные негативы первого поколения (мастер-негативы), используемые при микрофильмировании рукописей, архивных материалов и редких изданий. Специалисты предлагают создавать современные страховые архивы на оптических компакт-дисках.
Процесс архивации данных обычно занимает от 5 до 30 минут, что не является серьёзной потерей времени для пользователей, особенно с учётом того, что время, необходимое даже для частичного восстановления утерянных данных, исчисляется часами, а порой и днями.
Разархивирование – процесс точного восстановления машиночитаемой информации, ранее сжатой и хранящейся в файле-архиве.
В организациях используют программно-технические средства записи (дозаписи, обновления, «горячей» замены), долговременного хранения и последующего считывания различных видов машиночитаемой информации на внешних носителях информации (магнитных лентах, ZIP, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-R, DVD-RW, сменных жёстких дисках и др.).
ZIP-накопители представляют сменные магнитные или магнито-оптические диски размером с 3,5” дискету, имеющие высокую плотность записи (100 Мб – 2 Гб) и быстродействие до 7 Мб/с. Первые обеспечивают длительность хранения данных до 5 лет. Последние обладают повышенной надёжностью хранения данных и длительностью до 30 лет без перезаписи.
Традиционно используются накопители с технологией магнитной записи/считывания данных на магнитной ленте – стримеры (англ. «streamingtype»), позволяющие записывать на одну кассету от десятков Мб до 100 Г. Ленточные библиотеки или библиотеки на магнитных лентах предназначены для автоматизированного резервного копирования данных. Основным недостатком их является последовательный (медленный) доступ к данным и относительно невысокая надёжность носителя.
В последнее время для этих целей используют различные компакт-диски (CD, DVD). Они дешевле сменных магнитных и магнитооптических дисков, не требуют защиты от воздействия магнитных полей и обеспечивают практически мгновенное позиционирование считывающих головок в нужном месте диска, что позволяет гораздо быстрее считывать информацию, чем при использовании накопителей на магнитной ленте.
Ведутся разработки по созданию более ёмких, компактных и надёжных носителей информации (иные виды компакт-дисков, голографические накопители, флеш-память и др.). Основной проблемой широкого внедрения новых носителей является отсутствие уверенности у пользователей (да и у их создателей), что подобные устройства позволят долговременно хранить и сохранять записанные на них ЭИР. Пока ещё разработчики не могут заранее точно и однозначно назвать такие данные. В связи с этим появляются различные, порой противоречивые, сведения. Например, в их документах указывается срок жизни (и хранения данных) компакт-дисков от нескольких десятков до пятидесяти и даже ста лет.
Данные в архиве могут размещаться в сжатом или несжатом (первичном) состоянии.
Для упаковки файлов используются специальные программы-архиваторы, каждая из которых вместо одного или нескольких файлов создаёт один архивный файл в том или ином формате ассоциированным с соответствующим расширением. Одной из первых программ-упаковщиков был созданный фирмой Inc.SEA в 1985 году архиватор ARC. В 1989 году фирма PKWARE представила архиватор PKZIP и разархиватор PKUNZIP. В 1990 году появился, созданный Робертом Янгом (Robert Jung), архиватор ARJ. За ним архиватор RAR, созданный в середине 90-х годов XX века в России.
Ныне наиболее часто используются программы-архиваторы: ZIP, ARJ, RAR, WINZIP, WINRAR и другие, осуществляющие физическое сжатие длины записей. Данный приём с помощью специальных методов кодирования (статического или динамического) позволяет сократить объём данных на носителе от полутора до пяти раз. Простейший способ архивирования заключается в размещении копий важных данных и программ на том же носителе, например, магнитном диске в специально созданной директории. Он требует достаточного свободного пространства на диске и не защищает в случае выхода из строя этого диска или компьютера.
В архиваторах используются режимыдинамического и статического сжатия. Динамическое сжатие характеризуется возможностью восстановления данных в исходную форму в процессе считывания их соответствующими устройствами компьютера. Статически сжатые данные могут быть считаны только после их полного восстановления (разархивации).
Архиваторы имеют удобный интерфейс пользователя, позволяют создавать многотомные и «самораспаковывающиеся» архивы (с расширением «exe»), производить иные операции. Для распаковки самораспаковывающегося архива достаточно запустить его как программу.
Строгих критериев, позволяющих считать один из названных архиватор лучше другого, не существует. Они имеют приблизительно одинаковые характеристики.
Основными характеристиками архиватора являются:
· степень сжатия файла (отношение размера исходного файла к размеру упакованного);
· скорость работы;
· сервис (набор функций архиватора).
Все сервисы программ-архиваторов исполняются с помощью специальных команд и ключей, описание большинства из которых появляется при запуске программы с ключом «h» или «?». Ключ обозначается с помощью «слежа» (/), например, «arg/?» или «pkzip/h». В последнее время большую популярность приобрел российский архиватор RAR, имеющий удобный интерфейс пользователя.
Простейшие и самые важные команды:
● архивировать (резервировать) – «a», что означает «addfilestoarchive» (ввести файлы в архив) и
● разархивировать – «e», что означает «extractfilesfromarchive» (извлечь файлы из архива).
У пары архиваторов PKZIP и PKUNZIP перед этими и другими командами ставится знак минус (–). Например, для извлечения файлов из архива по имени «moiprog.zip», следует выполнить следующую команду «pkunzip –emoiprog.zip», а для раскрытия архива из файла «programs.arj» выполняют команду «arjeprograms.arj». Файлы могут добавляться в архив, извлекаться из него, тестироваться, заменяться или уничтожаться в нём, записываться на дискеты с напоминанием их замены при полном заполнении дискеты (так называемый многотомный архив). Для надёжного архивирования в ARJ используется режим тестирования при записи файлов в архив (–jt), при этом архивируемый файл сначала записывается во временный файл, а затем, после проверки, в архив.
В архиве может создаваться та иерархическая структура каталогов и подкаталогов, которая существовала на соответствующем носителе до архивирования. Соответственно, при извлечении из архива эта структура может быть сохранена, в ARJ, например, для этого используется команда «–p1».
С помощью команды «i» на экран монитора можно вывести список файлов, находящихся в архивном файле. Для работы с конкретным архивным файлом могут использоваться пароли. Создания саморазархивируемого модуля в ARJ осуществляется с помощью команды «–je», например, «arja –je (имя создаваемого архива)». С помощью специальной команды «m» можно производить выбор разных методов архивирования, например,: без сжатия «0», с наибольшим сжатием «1», с меньшим сжатием, но большей скоростью «2» и «3» и, наконец, с минимальным сжатием, но наибольшей скоростью «4». Такая система применяется для ARJ. При этом команда будет выглядеть, например, следующим образом «arja –jm2 (имя создаваемого архива)».
Для частого выполнения однообразных команд можно создать командный файл, в который записать имя архиватора (разархиватора) и необходимые команды и ключи, например, «c:\arсh\arja -r -m2 -jm1 -je1 (имя создаваемого архива)».
ЭИР всё более функционируют в Интернет и Интранет сетях, обеспечивающих совместный доступ пользователей к огромным массивам данных. Массивы данных в Интернете хранятся на подключённых к нему серверах. Хранить всю информацию только на одном сервере нецелесообразно, так как выход его из строя приводит к нарушению работы сети в целом.
Одним из способов оптимизации методов хранения является создание корпоративных хранилищ данных и организация нескольких (зеркальных) серверов[1], хранящих совершенно одинаковые программы и данные, что позволяет не только сохранять информацию, но и обеспечивать бесперебойную работу пользователей с интересующими их данными.
Другим вариантом является создание в сети распределённых баз данных, доступ к которым может быть обеспечен с любых компьютеров сети. Такой метод наиболее целесообразен в ЛВС, где компьютеры находятся на значительном удалении друг от друга, а также в глобальных сетях Интернет. Удобство его объясняется и теми факторами, что, во-первых, при обращении пользователя к необходимой ему информации не требуется соединяться с общим сервером, а можно обращаться непосредственно к тому компьютеру сети, на котором располагается информация, генерируемая его работниками. Во-вторых, именно на таком ПК информация первична, наиболее часто обновляема (актуализируема) и достоверна.
В любом случае для хранения огромных массивов данных на одном сервере стало не хватать ёмкостей обычных накопителей на жёстких магнитных дисках (HDD). Решение проблемы было найдено в применении «батареи» жёстких и/или библиотеки оптических дисков.
Первые из них разработаны в 1987 году в США (Калифорнийский университет) и получили название RAID (англ. «RedundantArrayofInexpensiveDisks»). Они представляют «этажерку» жёстких дисков (несколько физических дисков, объединенных в одно устройство), управляемое специализированным контроллером и обычно инициализированных для пользователя как один логический диск. Такое решение позволяет распределять основные и системные данные между несколькими носителями (дисками), в том числе дублировать данные – часть его резервируется для обеспечения восстановления данных в случае неисправности дискового массива.
Этот же термин может обозначать массив независимых дисков. В этом случае он может быть сформирован таким образом, чтобы, например, половина ёмкости отводилась под хранение данных, программ и т.п., а другая половина полностью копировала первую. При этом образуются два совершенно одинаковых массива составляющих «зеркальные» диски, так называемый метод отражения (англ. «mirroring»). Информация записывается на оба диска одновременно и, в аварийной ситуации с первым диском, она будет автоматически считана с другого. Другой способ получил названия «метод дублирования» (англ. «duplexing»). Он имеет более высокий уровень избыточности, но свободен от некоторых недостатков предыдущего – каждый диск подключается к собственному контроллеру.
CD библиотека (DVD-библиотека) представляет внешний дисковый массив хранения информации. Её можно подключить к корпоративному серверу и, тем самым, увеличить объём дисковой памяти, доступной пользователям в режиме онлайн. К одному или нескольким серверам можно подключить несколько дисковых систем или массивов. Существует информационное хранилище, включающее 55 таких библиотек общей ёмкостью около 3,5 Тб.
Эти устройства называют «роботизированными библиотеками», Jukebox или чейнджерами и используют в локальных, корпоративных и территориальных распределённых сетях. Они вмещают от нескольких до 100, 620 и более компакт-дисков, позволяют поддерживать до 50 виртуальных компакт-дисков для непосредственного электронного копирования на CD/DVD, а также с помощью встроенного жёсткого диска объёмом в несколько десятков Гб. Аналогично осуществляется и автоматическое архивирование массивов, определённых администратором сети, в том числе перенос редко используемых данных на DVD. Вся такая библиотека представляет единую структуру или том, а каждый диск – отдельный каталог в томе.
Подобные технологии позволяет не только повысить
устойчивость системы к различным сбоям, но и, моментально переключившись на
другую часть массива, поддерживать постоянную работоспособность системы, что
наиболее часто используется в работе серверов. Кроме того, в данном случае
можно произвести замену вышедшего из строя накопителя на резервный без
отключения электропитания и перезагрузки системы – «горячая» замена. Названные
возможности дисковых батарей и библиотек огромных массивов данных (хранилищ
информации) в совокупности обеспечивают высокую надёжность хранения данных.
При использовании сетевых технологий для хранения информации применяют различные информационные хранилища – базы обобщённых данных, формируемые из множества различных внешних и внутренних источников. Для сохранности ЭИР применяют и сети хранения данных (StorageAreaNetwork, SAN). В корпоративных сетях широко используются специализированные NAS-серверы (NetworkAttachedStorage), осуществляющие совместимость, интеграцию и администрирование серверов общего назначения и хранение огромных массивов данных (Рис. 12-1).
Основная задача таких хранилищ заключается в обеспечении надёжного централизованного хранения ЭИР и необходимого ПО в соответствии с требованиями к их сохранности и защите.
В качестве информационных хранилищ используют RAID иCD библиотеки (в том числе DVD).
Процесс проектирования системы хранения данных, обеспечивающей резервное копирование, архивирование, структурированное хранение и восстановление данных в требуемые сроки должен опираться на пофайловый анализ подлежащих хранению данных, рекомендуемый проводить на основе следующей информации о файлах:
● даты создания, модификации,последнего обращения,
● расширение,
● расположение в каталогах файловой системы.
Процесс проектирования системы хранения сетевых данных рекомендуется начинать со сбора и анализа информации о хранящихся в сети данных.По всем серверам и рабочим станциям с критически важными данными необходимо выяснить:
● время работы и требования ко времени восстановления в случае сбоя;
● общий объём установленной дисковой памяти, в т.ч. занятый и свободный объёмы;
● данные о файлах (даты создания, модификации, последнего обращения к ним).
Нужно постараться упорядочить хранящиеся данные, поместив файлы, подлежащие резервному копированию, архивированию и другим видам хранения, в отдельные каталоги. Оценив реальную скорость копирования/восстановления информации, можно уточнить необходимое число накопителей в устройствах хранения данных.
При очень больших объёмах информации, подлежащей резервному копированию, архивированию и структурированному хранению, становится неудобно осуществлять мониторинг и администрирование этих процессов непосредственно из ПО. В этом случае его интегрируют со средствами сетевого управления.
[1] «Зеркало» (англ. «mirror») – полная или почти полная копия исходного сайта на другом сервере в сети Интернет.