Хранилище данных предприятия (EDW) обеспечивает доступ к бизнес-данным, хранящимся в денормализованной структуре, называемой звездной схемой, что упрощает анализ, визуализацию и прогнозирование основных показателей бизнеса. Отчетность бизнес-аналитики (BI) использует хранилище данных для создания общих отчетов по самообслуживанию в режиме реального времени, пользовательских визуализаций, карт данных, отчетов для принятия решений и машинного обучения (ML).
Хорошо спроектированное хранилище данных может дать конечным пользователям и приложениям возможность легко подключаться к важным бизнес-данным, обеспечивая единый источник информации для принятия решений. Однако проекты по созданию хранилищ данных обычно требуют огромных инвестиций в оборудование и консультантов для построения ETL и моделей данных. Наличие хранилища данных и хорошего BI при этом может ограничиваться.
Автоматизация хранилищ данных позволяет организациям любого размера управлять своими данными и выполнять аналитику данных с помощью хорошо обобщенных наборов данных, объединяя данные из всей платформы данных в значимую бизнес-аналитику.
Проблемы традиционной разработки хранилищ данных
Традиционно жизненный цикл разработки хранилища данных включал в себя долгие, утомительные, дорогостоящие и сложные методы определения объема данных, моделирования, преобразования, проектирования, тестирования, принятия качества данных и развертывания. Для этого требовались высококвалифицированные технические разработчики SQL и эксперты по данным компании, работающие в команде, чтобы разработать и закодировать то, что они считали лучшими источниками данных для компании.
Этот процесс может занять много месяцев, и до сих пор не существует достаточной стандартизации того, как этот процесс должен выполняться и какие бизнес-правила должны применяться в каждом конкретном проекте. Начиная со сбора требований и заканчивая извлечением, преобразованием и загрузкой данных (ETL) в пригодное для использования хранилище данных, конечный результат иногда оказывается дорогостоящей катастрофой. Хотя BI-инструменты пытались упростить этот процесс, широкое разнообразие источников данных и бизнес-правил делает этот процесс сложным по своей сути.

Что такое автоматизация хранилища данных?
Автоматизация хранилищ данных (DWA) ускоряет и автоматизирует циклы разработки, сокращает время и количество ошибок в традиционных BI-проектах. DWA дает возможность эффективно решать трудоемкие, повторяющиеся задачи при разработке проекта по созданию хранилища данных, в том числе устранить необходимость в ручном кодировании. Используя инструменты DWA, модели проектирования и шаблоны, разработчики могут ускорить процесс внедрения, применяя автоматически генерируемые проекты хранилищ данных для удовлетворения стратегических потребностей бизнес-пользователей. Такая автоматизация может ввести новую стандартизацию обнаружения данных, разработки, тестирования и управления изменениями, обеспечивая последовательность от проекта к проекту.
Поставщики облачных услуг упростили эту задачу, предоставляя хранилища данных как услугу (DWaaS), например такие как Snowflake и AWS Redshift, предлагают отраслевые шаблоны данных и хранилища в облаке. Конвейеры интеграции данных в Azure Synapse, например, предоставляют сотни встроенных коннекторов, что упрощает ввод различных источников данных.
Длительные сроки реализации проектов могут быть значительно сокращены за счет использования простых инструментов работы с данными, доступных в рамках этих готовых к использованию платформ. Кроме того, эти службы интегрируются в службы управления данными и каталоги данных для поддержания качества данных в течение длительного времени. Хорошим примером является Microsoft Azure Purview.
Как это работает?
Генерация кода
Многие платформы автоматизации хранилищ данных генерируют код с помощью простых интерфейсов drag-and-drop, сокращая до нескольких секунд усилия по созданию исходного кода для задач, на которые обычно уходят часы ручной разработки. Это обеспечивает разработчикам гибкость, позволяющую быстро вносить изменения в рабочую нагрузку, процессы и дизайн, чтобы учесть любые дополнительные требования по мере продвижения проекта, без задержек по времени.
Некоторые проблемы, с которыми сталкиваются ИТ-команды, – это непоследовательность в разработке проектов и потеря технических ресурсов в середине проекта. Со временем требования меняются. В традиционных EDW это означает, что кто-то, обычно не первоначальный разработчик, должен потратить время, чтобы понять существующий код, определить, где внести изменения, а затем внести изменения в код. С помощью инструментов DWA изменения, внесенные на более поздних этапах жизненного цикла EDW, легче интегрируются, и при внесении изменений в существующий код требуется меньше времени на обучение.
Извлечение данных
Появление систем больших данных и их эволюция в консолидации, наряду с распространенностью бизнес-систем «ПО как услуга» (SaaS), означает, что разработчик BI сталкивается с постоянно растущим разнообразием источников данных. Теперь это уже не просто база данных Oracle или SQL Server. Современные инструменты DWA сокращают усилия разработчика, позволяя извлекать данные «на лету» из различных источников данных одним нажатием кнопки, используя сотни встроенных API и коннекторов.
Программное обеспечение включает в себя функции сопоставления данных, упрощая конечным пользователям, участвующим в проекте, работу по интеграции данных для сопоставления данных из нескольких бизнес-приложений. Программные пакеты DWA обычно включают встроенные анализаторы метаданных для сокращения избыточности данных, несоответствий и ошибок, обычно возникающих на этапе ETL проекта хранилища данных. Эти инструменты действуют как усилитель, поскольку традиционные упражнения по составлению карт являются чрезвычайно повторяющимися и отнимают много времени. Программное обеспечение DWA ускоряет эту часть развития проекта.
Правила и стандарты
DWA позволяет разработчикам устанавливать правила, стандарты и методологии, легко создаваемые от проекта к проекту. Добавление многократно используемых шаблонов также упрощает построение модели данных и выполнение требований нормативного соответствия и управления данными для бизнеса. Есть также возможность отслеживать и документировать данные вместе с каждым этапом процесса проектирования.
Инструменты для работы с базами данных
После того как предприятие разработало и запустило в производство новое корпоративное хранилище данных, важно отслеживать его использование и оптимизировать любые проблемы с производительностью, чтобы обеспечить беспрепятственное внедрение конечными пользователями.
Источник: https://bit.ly/3GAOO8x