Назад

Резервное копирование и восстановление данных (Bog BOS)

Статья приводится в сокращении, полный вариант тут.

Целью резервного копирования данных (резервирования) является снижение риска потери данных предприятия.

Основы

Резервное копирование данных не является самоцелью, а производится для обеспечения возможности последующего восстановления. То есть планирование резервирования начинается с планирования восстановления для каждой из возможных причин потери данных (какой носитель содержит последнюю копию, где он находится, как его использовать, как восстановить сервер резервирования, где описание сгоревшего сервера, какие диски в нём были, как они были разбиты, конфигурация RAID и LVM). Необходим мониторинг резервного копирования и процедуры тестирования для всех режимов копирования и восстановления, включая аварийные ситуации, смену версии ОС, СУБД, системы резервирования или её замену. Процесс резервирования и восстановления д.б. документирован достаточно хорошо, чтобы позволить вам уйти в отпуск. Новый сервер должен [полу]автоматически включаться в систему резервирования. На нём также удобно тестировать новую систему резервирования.

RTO (recovery time objective) - насколько быстрым должно быть восстановление для данной группы данных и данной причины. RPO (recovery point objective) - насколько назад по времени вы готовы потерять данные из этой группы для данной причины. Группы данных могут быть связанными по RPO. Периодичность и время хранения определяется потребностями бизнеса и регламентируется правилами работы в локальной сети и рабочими инструкциями (иногда требуется система управления версиями или CDP). Наличие регламента позволит вам сохранить работу в случае проблем.

Возможные причины потери данных и средства защиты или восстановления:

  • непредумышленная порча или удаление данных по ошибке пользователя; поиск и восстановление файлов из резервной копии (может потребоваться CDP);
  • непредумышленная порча или удаление данных по ошибке администратора; поиск и восстановление файлов из резервной копии (надо делать быстро!);
  • полный или частичный (плохие блоки) отказ диска; для защиты данных возможно использование RAID технологии (RAID-1, RAID-5, RAID-6); при одновременном отказе нескольких дисков из массива требуется восстановление системы из резервной копии;
  • физический отказ сервера; требуется мониторинг предупреждений; требуется запасной сервер и восстановление системы из резервной копии;
  • утрата сервера или группы серверов (кража, пожар, наводнение, ураган, ОБЭП); требуется восстановление системы из резервной копии, хранящейся на другой территории;
  • ошибки приложений, приводящие к удалению и порче данных; требуется поиск и восстановление файлов из резервной копии;
  • ошибка ОС, приведшая к повреждению файловой системы или отдельных файлов; требуется восстановление системы или поиск и восстановление файлов из резервной копии;
  • внезапное отключение питания, приведшее к невосстановимому повреждению файловой системы (рекомендуется использовать файловую систему в режиме журнализации данных); необходимо использование UPS с программным обеспечением аккуратного завершения работы системы при исчерпании батареи, иначе требуется восстановление системы из резервной копии;
  • порча или удаление данных в результате действий хакера или вредоносной програмы; требуется восстановление системы из резервной копии или тщательное расследование, поиск и восстановление файлов из резервной копии;
  • обнаружение пропажи или порчи данных по истечении срока хранения резервных копий; требуется архив долговременного хранения для полных ежемесячных копий;

Последствия потери данных:

  • имидж компании, проблемы с надзорными органами;
  • потери рабочего времени;
  • неуверенность и обида сотрудников, они начинают копировать данные самостоятельно;
  • административные последствия для системного администратора или его начальника;

Дополнительные возможности, которые может обеспечить система резервирования данных:

  • верификация данных;
  • поиск дублей данных;

Планирование резервирования и восстановления данных

Затраты на систему резервирования данных должны соответствовать потребностям. Чтобы требовать денег необходимо определить:

  • сколько стоит потеря данных и простой на время восстановления;
  • собрать статистику сколько раз система восстановления позволяла спасти данные;
  • сколько "стоит" ручная самодельная система резервирования и сколько раз оператор ошибался при установке ленты;

Необходимо подготовить презентацию с описанием проблем и вашими предложениями по исправлению ситуации, каков текущий риск и затраты, сколько надо денег, каков будет процесс перехода на будущую систему. Презентация должна показать, что вы обдумывали другие альтернативы и почему вы их отвергли. Как новая система будет справляться с будущим ростом сети и до какого размера.

Процесс планирования системы резервирования и восстановления данных:

  • почему необходима защита данных;
    • разбиение данных на группы;
    • оценка стоимости потерь для каждой группы;
    • оценка стоимости простоя на время восстановления
  • что необходимо резервировать:;
    • всю систему (диск, раздел)
    • отдельные файловые системы
    • отдельные файлы
    • дополнительная информация (тип ОС, таблица разделов)
  • определение RTO и RPO для каждой группы данных и причины потери;
  • когда:;
    • периодичность полного и инкрементального резервирования
    • время резервирования
    • продолжительность резервирования
    • допустимый уровень потерь производительности производственной системы (окно резервирования)
  • где должны храниться резервируемые данные: закрытое помещение или внешнее хранилище, каталог (БД) носителей (номер, имя, место), метки на носителях, хранилище носителей), отслеживание перемещений, считыватель штрих-кодов для автоматизации редактирования БД, ежеквартальная инвентаризация, внешний аудит;
  • кто будет организовывать процесс;
  • как;

Выбор программной системы резервирования и восстановления

Общие критерии выбора системы:

  • поддерживает ли продукт большинство наших платформ (ОС, СУБД) в полном объёме (атрибуты, ACL, fork, специальные файлы, AD, регистр, что будет при обновлении ядра?) как сервер и как клиент; поддержка NDMP (Network Data Management Protocol) - стандартный интерфейс с агентом резервного копирования;
  • централизация: единая консоль управления, мониторинг, планировщик, хранилище, БД по носителям и файлам;
  • масштабируемость: возможность добавлять новые консоли, БД, хранилища в общую систему;
  • единый планировщик задач: приоритеты, ограничение параллелизма;
  • автоматический запуск пропущенных заданий;
  • возможность вынести сервера хранения и сервер БД на удалённую площадку (интерфейс между компонентами);
  • может ли продукт копировать и восстанавливать разделы, MBR и диски (в т.ч. только изменения);
  • максимальный размер файла и файловой системы, раздел более 2ТБ, превышение размера носителя;
  • сохранение и восстановление метаданных для всех типов файловых систем (ctime, mtime, atime, права доступа, ACL, fork);
  • сохранение сопутствующей информации: описание сервера, дисков, разделов, RAID, LVM, файловых систем;
  • удовлетворяет ли продукт существенным повышенным требованиям по RTO, RPO, окну резервирования;
    • резервирование данных удалённого офиса (малая пропускная способность канала передачи данных)
    • очень большой объём данных (не успевает в окно)
    • критические приложения с нулевым RTO или RPO
  • имеются ли механизмы обеспечивающие удовлетворение повышенных требований;
    • LAN-free: использование SAN (FC HBA и FC коммутатор или iSCSI) позволяет уместиться в окно
    • Serverless (Server-Free): дисковый массив с несколькими входами подключается напрямую к серверам с данными и серверу резервирования; на время резервного копирования зеркало расслаивается или делается снимок файловой системы и сервер резервирования получает данные напрямую
    • De-duplication backup systems: если несколько файлов на разных компьютерах одинаковы, то делается только одна копия; если в большом файле изменяется несколько байт, то в инкрементальную копию попадут только они; может быть реализована на уровне клиента (меньше сетевой трафик) или сервера резервирования
    • снимок файловой системы на определённый момент времени; для защиты от аппаратных сбоев его надо резервировать, но приложения на время резервирования останавливать не надо, а снимок делается очень быстро; можно делать синхронные снимки для группы данных; интерфейс с файловой системой (VSS) и агентами СУБД
    • репликация файлов или блоков на удалённую систему
    • near-CDP (Continuous Data Protection Systems) - регулярное создание снимков с их последующей репликацией (или наоборот) обеспечивает возможность восстановления на моменты времени с очень маленьким интервалом
    • CDP (Continuous Data Protection Systems) - при каждом изменении файла изменённые блоки записываются в журнал на удалённом сервере, что позволяет восстановить файл на любой момент времени; различаются методами буферизации изменений и методом (скоростью) восстановления; очень малое окно, нулевое RPO и может иметь очень малое RTO (при поблочном методе восстановления); CDP может действовать на уровне файловой системы или блочного устройства
  • может ли продукт резервировать несколько клиентов на одно устройство одновременно (особенно важно для стримеров);
  • D2D2T (Disk-to-Disk-to-Tape), миграция данных, поиск в автоматическом режиме самых старых копий, сброс их на ленту и очистка места;
  • поддерживает ли продукт несколько резервных копирований с одного клиента одновременно на несколько устройств хранения (большая система не успевает скопироваться за ночь); надо ли вручную описывать несколько заданий или система может автоматически разбивать задание по границе файловых систем или ещё более мелко;
  • специфическая обработка данных: иногда требуется резервировать сетевые файловые системы (NFS, CIFS/SMB), а иногда исключать их; перед копирование может потребоваться выполнить пользовательскую программу; специальные агенты для резервирования и восстановления БД (может использовать API СУБД или свои методы);
  • наличие средств управления хранением данных;
    • поддержка архивов (хранилище логически сгруппированной информации с возможностью поиска и извлечения) или интерфейс к архивной системе - лучше купить специальную программу работы с архивами (в резервных копиях будет много мусора, искать будет очень трудоёмко, будет потрачено очень много места, просто восстановить 10-летнюю копию будет дорого, проблемы с совместимостью, отсутствуют метаданные, часть данных будет пропущена)
    • поддержка управления иерархическим хранением данных (HSM - Hierarchical Storage Management), автоматический поиск неиспользуемых данных и перенос их "подальше" с автоматическим возвращением при доступе
    • помощь в управлении жизненным циклом данных
  • наличие средств сокращения сетевого трафика (если под резервирование не выделена отдельная сеть): сжатие на стороне клиента (управление силой сжатия, на каком уровне производится сжатие - поток, файл, блок); гибкость при выборе месторасположения серверов хранения; ограничение трафика на стороне клиента; поддержка SAN;
  • стандартный или уникальный формат хранения; наличие автономных утилит для чтения оглавления, проверки и извлечения файлов; доступно ли описание формата;
  • лёгкость администрирования;
    • сложность развёртывания
    • трудоёмкость обслуживания
    • процесс резервного копирования должен быть автоматизирован, ручное обслуживание сведено к минимуму
    • изготовление копий носителей, отслеживание копий в каталоге
    • дублирование резервных копий (возможно собрав по кускам с разных носителей), отслеживание копий в каталоге
    • создание копии копии одновременно с копией
    • консолидация копий сервера с целью ускорения восстановления
    • консолидация частично заполненных носителей с целью освобождения места
    • автоматическое обнаружение новых серверов, файловых систем, СУБД
    • возможность исключения файлов из списка сохраняемых, метод исключения (шаблоны, регулярные выражения)
    • интерфейс: командная строка, текстовое меню, графический клиент, Java, web-интерфейс
    • извещение о проблемах и необходимости ручного вмешательства: email (различные сообщение на различные адреса для различных событий для различных групп серверов); API; SNMP; syslog
    • мониторинг: единая морда (с разбивкой по администраторам и ролям)
    • установка серверов и клиентов (ручная и автоматическая)
    • средства перехода на новую версию (ручное или автоматическое обновление)
  • безопасность;
    • аутентификация между компонентами
    • шифрование данных при обмене между компонентами
    • аутентификация пользователей
    • ролевая авторизация: кто может только мониторить, кто восстанавливать и какие сервера, кто может вмешиваться в процесс копирования
    • учёт действий пользователей
    • шифрование на стороне клиента
    • шифрование при хранении
  • лёгкость и скорость восстановления;
    • независимость от платформы и версии
    • процесс восстановления должен быть прост и устойчив к ошибкам человека
    • поиск файлов по имени (шаблону), дате, хосту
    • параллельное восстановление с нескольких носителей
    • возможность самостоятельного восстановления для обычного или продвинутого пользователя
    • возможность заблокировать самостоятельное восстановление
    • восстановление на другой хост или другой каталог
    • восстановление с нуля (bare-metal restore), на каких платформах, степень автоматизации
    • как восстановить сервер резервирования (а если не работает DHCP, DNS, вся сеть?)
    • отслеживание версий восстанавливаемого файла
    • отслеживание удалённых файлов
    • управление перезаписыванием файлов поверх существующих
  • каталог: какой файл с какого клиента был записан на какой носитель и когда; каков размер записи для каждого файла; платформонезависимость; лёгкость восстановления каталога из резервной копии каталога; восстановление каталога непоследственно с носителей;
  • управление и учёт носителей (сколько времени хранить, где находится, что содержит); метки на носителях (физические и логические), отслеживание перемещений;
  • устойчивость к перезагрузкам серверов и клиентов, неожиданным отключениям питания, проблемам с сетью и носителями; извещение оператора; выбор альтернативного пути;
  • степень автоматизации работы с ленточными библиотеками, считывателями штрих-кодов, автоматической очисткой, несколькими механизмами с горячей заменой;
  • наличие функции проверки архива: чтение части носителя и сравнение с исходными файлами, чтение носителя и сравнение оглавления с каталогом, чтение носителя и сравнение с исходными файлами, чтение носителя и сравнение контрольных сумм с содержимым каталога;
  • стоимость и принципы ценообразования (от числа клиентов, от числа устройств хранения и их типа, от объёма, от типа поддержки;
  • поставщик и условия поддержки, есть ли аналогичные клиенты;
  • проблемы с лицензированием (сервер лицензий с доступом в интернет, как восстановиться если его ещё нет);

Проблемы при смене системы резервирования:

  • цена покупки и развёртывания;
  • что делать со старыми копиями;
  • обучение персонала;
  • риск потери данных при настройке и во время обучения;
  • падение уровня обслуживания во время освоения продукта;

Симптоматические отличия систем уровня рабочей группы и уровня предприятия:

  • разделение администраторов на группы с различными правами и ролями;
  • системы уровня предприятия позволяют работать с ленточными библиотеками;
  • системы уровня рабочей группы легче осваивать;
  • системы уровня предприятия поддерживают больше платформ - ОС, СУБД, почтовых серверов;
  • системы уровня предприятия интегрированы с другими продуктами (миграция данных, обеспечение высокой доступности);
  • Continuous data protection (CDP) - сохранение в момент изменения;
  • развитые средства шифрования;
  • disk-to-disk-to-tape;
  • учёт носителей и файлов, где что лежит;

Преимущества резервного копирования на диск

Преимущества резервного копирования на диск

  • диски дешевле ленты;
  • диски надёжнее;
  • диски предоставляют больше возможностей (например, позволяют записывать в середину массива);
  • быстрый доступ к данным;
  • большая скорость при необходимости (RAID-0);
  • позволяют полностью автоматизировать процесс резервного копирования;
  • ленты надо ежегодно перематывать, а через некоторое время копировать;
  • стримерные лентопротяжки не могут работать медленнее своей крейсерской скорости, иначе начинают дёргаться;

Недостатки резервного копирования на диск

  • диски требуют более аккуратного обращения;

Популярные продукты

Популярные продукты:

  • персональные:;
    • самоделки из find, cpio, ssh
    • Acronis True Image (Linux)
  • уровня рабочей группы:;
    • CA ARCserve Backup (ранее CA BrightStor ARCserve Backup)
    • Symantec Veritas Backup Exec
    • Acronis True Image Enterprise (Windows)
  • уровня предприятия:;
    • bacula (GPL)
    • Symantec Veritas NetBackup
    • IBM Tivoli Storage Manager
    • CA BrightStor Enterprise Backup
    • EMC Legato NetWorker
    • HP OpenView Storage Data Protector

По материалам сайта www.bog.pp.ru

Статья приводится в сокращении, полный вариант тут.

На главную

Copyright © 2012 Soft42 Company™