Оптимизация резервного копирования и восстановления: Глубокое погружение в дедупликацию и сжатие данных

Подробности

Ваши данные – это не просто актив, это жизненная сила вашего бизнеса. Это справедливо практически для любого бизнеса, поскольку, по прогнозам Statista, к 2025 году объем данных в мире вырастет до более чем 180 зеттабайт. По данным Statista в 2023 году более 72 % компаний по всему миру пострадали от программ-вымогателей.

Растущая зависимость от данных в сочетании с постоянно меняющимся ландшафтом угроз подчеркивает, что надежный план резервного копирования и восстановления жизненно важен для выживания бизнеса. Эффективный план обеспечивает непрерывность бизнеса перед лицом угроз, системных сбоев, стихийных бедствий и кибератак. Без комплексной стратегии резервного копирования и аварийного восстановления ваш бизнес рискует понести серьезный финансовый, операционный и репутационный ущерб.

В условиях растущих объемов данных и сложных ИТ-требований дедупликация и сжатие – две технологии, которые помогут вам оптимизировать требования к хранению данных и повысить эффективность планов резервного копирования и восстановления.

Deduplication и Compression: Функциональные возможности и преимущества

Дедупликация и сжатие предназначены для уменьшения площади хранения резервных копий данных, что делает защиту данных более эффективной и экономически выгодной. Благодаря устранению избыточных данных и уменьшению их площади эти технологии помогают оптимизировать ресурсы хранения, сократить расходы и улучшить показатели времени восстановления и точек восстановления (RTOs/RPOs).

Дедупликация выявляет и удаляет дубликаты данных в вашей среде хранения. Вместо того чтобы хранить несколько копий одних и тех же данных, дедупликация сохраняет одну копию и создает ссылки на исходные данные для всех последующих дубликатов. Дедупликация особенно эффективна в средах резервного копирования, где одни и те же данные могут храниться в нескольких наборах резервных копий.

Сжатие уменьшает размер файлов данных за счет алгоритмического устранения избыточности в каждом файле. Оно может применяться к широкому спектру типов данных, что делает его универсальным инструментом для снижения требований к хранению и ускорения скорости передачи данных, что крайне важно для эффективного аварийного восстановления.

Принцип работы дедупликации резервных копий

Дедупликация может быть развернута на разных уровнях: файловом, блочном и байтовом, причем блочный уровень является наиболее распространенным. При дедупликации на уровне блоков данные делятся на уникальные блоки, которые затем анализируются на предмет избыточности. Если блок идентичен уже хранящемуся, создается ссылка на существующий блок, а не сохраняется еще одна копия.

Этот процесс зависит от сложных механизмов индексирования, которые отслеживают все уникальные блоки данных и ссылки на них, чтобы обеспечить быстрый доступ и восстановление данных в случае необходимости.

Существует два основных типа дедупликации: post-process deduplication, когда данные сначала сохраняются в исходном виде, а затем дедуплицируются, и inline deduplication, которую Arcserve включает в свои решения, когда данные дедуплицируются в режиме реального времени по мере их записи в систему хранения. Inline deduplication более эффективна с точки зрения занимаемого пространства, но требует большей вычислительной мощности.

Вот как работает дедупликация данных:

Разделение данных

Когда запускается задание резервного копирования, Arcserve Unified Data Protection (UDP) дедуплицирует данные, сегментируя их на блоки, причем размер блока дедупликации по умолчанию составляет 4 КБ. Однако вы можете изменить размер блока, выбрав следующие варианты: 4 КБ, 8 КБ, 16 КБ, 32 КБ и 64 КБ, в зависимости от конкретных требований и желаемого баланса между эффективностью дедупликации и использованием ресурсов.

Вычисление хэша

Каждому блоку присваивается уникальное хэш-значение, которое выступает в качестве уникального идентификатора, вычисляемого на основе данных, содержащихся в каждом блоке.

Сравнение хэшей

Значения хэша отправляются на сервер точки восстановления (RPS), где они сравниваются с существующими хэшами в хранилище резервных копий. На этом этапе выявляются избыточные данные путем поиска совпадающих хэшей.

Фильтрация и резервное копирование

Если обнаружено совпадение хэшей, это указывает на дублирование блока, который исключается из резервной копии. Только блоки с уникальными хэшами – с новыми или измененными данными – отправляются на хранение в RPS. RPS обновляет свою базу данных с каждой новой записью, обеспечивая сравнение будущих резервных копий с последним набором данных.

Arcserve UDP использует дедупликацию данных для ускорения резервного копирования за счет устранения избыточных данных. Решение также упрощает процесс слияния, чтобы минимизировать влияние производительности на ваши системы. Вы можете дедуплицировать данные на нескольких агентах, чтобы еще больше повысить эффективность хранения и скорость резервного копирования в глобальном масштабе. Вы также можете рассчитывать на оптимизированную и более надежную репликацию, которая обеспечивает быстрое и эффективное зеркалирование данных в удаленных точках для аварийного восстановления.

Принцип работы сжатия

Алгоритмы сжатия данных уменьшают размер блоков данных перед их сохранением. С помощью Arcserve UDP можно выбрать один из нескольких уровней сжатия без потерь: от отсутствия сжатия для повышения производительности до максимального сжатия для повышения эффективности хранения. Это позволяет сбалансировать потребности в оптимизации хранения с доступными ресурсами процессора и желаемой скоростью резервного копирования.

Вот как работает сжатие данных:

Анализ перед сжатием

Перед сжатием данных Arcserve UDP оценивает их, чтобы определить потенциальный коэффициент сжатия и убедиться, что применение сжатия позволит сэкономить значительное пространство для хранения.

Процесс сжатия

Данные сжимаются с помощью эффективных алгоритмов, которые уменьшают их размер, сохраняя целостность. Алгоритм определяет повторяющиеся последовательности и избыточности в данных и заменяет их более краткими и компактными символами или кодами.

При распаковке этот процесс происходит в обратном порядке. Алгоритм считывает сжатый файл и использует сохраненное отображение для поиска каждого символа или кода, заменяя его исходной последовательностью или шаблоном, который он представляет. Этот процесс продолжается последовательно, пока все символы или коды не будут заменены на исходные данные.

Простым примером может служить строка кода, содержащая «BBBBBB», которая может быть сжата до «6B», где «6» – это количество повторений «B».

Обработка данных после сжатия

После сжатия данные подготавливаются к хранению или передаче. Сжатые данные требуют меньшей пропускной способности для репликации вне офиса и меньшего пространства для хранения.

Источник: Optimizing Backup and Recovery: A Deep Dive into Data Deduplication and Compression