Моделирование данных: как сделать и какие инструменты выбрать

2022-10-10 13:15:06 Время чтения 8 мин 812

Данные — инструмент бизнеса для решения проблем в режиме real-time. Часть информации получают из бизнес-процессов или системы управления, а моделирование используют, чтобы данные приносили пользу на 100%. 

Что такое моделирование данных 

Моделирование данных — набор техник выявления и анализа информации. Для моделинга не нужны технические навыки, только аналитические и логические, а также понимание роли данных в бизнес-процессах.

Почему моделирование данных важно

Понятная модель данных:

  1. упрощает бизнес-операции; 
  2. обеспечивает правильное хранение, анализ и поиск информации;
  3. устраняет избыточность информации и пробелы;
  4. улучшает качество принятия решений.

Три этапа моделирования данных 

Три шага моделирования: концептуальный, логический и физический.

1. Концептуальное моделирование

Это визуализация бизнес-процессов, их характеристик и взаимосвязей. Для концептуального этапа не нужно ПО — нарисуйте модель на бумаге или флипчарте. 

2. Логическое моделирование

Один раз создайте концептуальную модель данных, чтобы дальше преобразовать в логическую. Добавьте ключевые и неключевые атрибуты к сущностям, которые моделируются. Покажите отношения первичных и внешних ключей. Модель на этом этапе независимая, поэтому совмещается со всеми базами данных.

3. Физическое моделирование

В физической модели сущности преобразуются в таблицы, а атрибуты — в столбцы. Имена таблиц и столбцов адаптируют для совместимости с базой данных. Информация трансформируется под спецификацию БД.

Чтобы упростить пользователям понимание, покажите логическую модель данных, а физическую оставьте для анализа.

Примеры моделирования данных и кейсы 

Рассмотрим популярные подходы к моделированию.

1. Иерархические модели данных

Одна из первых моделей — Information Management System, которая появилась в компании IBM в 1996 году. По названию понятно, что способ строится на иерархии — отношениями между сущностями. В основе — древовидная структура данных, которая начинается с вершины или корня («родительская сущность») и спускается к «дочерним». 

Иерархическая модель подходит для инвентаризации. Например, у магазина одежды родительская сущность — вещь. Дальше получаем две дочерние сущности: женская и мужская одежда. Выделяем другие зависимые элементы для других типов одежды: женской (платья, топы, брюки и так далее) и мужской (футболки, брюки, пальто и так далее). 

2. Реляционные модели

Первую реляционную модель презентовал в 1970 году Эдгар Кодд — учёный-компьютерщик и сотрудник IBM. В основе метода — интуитивный подход к организации данных в таблицах по столбцам и строчкам. Реляционные модели используют в корпоративных вычислениях: отслеживании товаров в наличии, управлении информацией о клиентах, обработке транзакций электронной коммерции и т. д.

3. Модели данных «сущность-связь»

Название «сущность-связь» (ER) сразу поясняет, как сущности соотносятся друг с другом внутри модели данных. Возьмём, например, онлайн-транзакцию. Когда клиент покупает в интернет-магазине, генерируется код заказа (объект). Клиент может купить один или несколько товаров, добавить или удалить позиции из заказа, изменить количество и даже сделать возврат после покупки. Эти действия — связи с сущностью, которые отображаются в ER-модели.

4. Объектно-ориентированные модели данных

Объектно-ориентированная модель данных (OODM) отражает компоненты  существующих проблем бизнеса. Способ моделирует сложные сценарии, где сочетает объектно-ориентированное программирование и реляционную модель базы данных. Модель подойдёт для отслеживания воронки продаж. Объект здесь — потенциальный клиент (реальная сущность) с атрибутами объекта (имя, телефон и электронная почта). Когда лид превращается в клиента, появляется два объекта: «потенциальный клиент» и «клиент». 

К «потенциальному клиенту» привязывают атрибуты: имя, телефон, email. «Клиент» наследует атрибуты, а базу дополняют ID, адресами, платёжными данными. По объектно-ориентированной модели информацию организуют вокруг реального сценария (объекта), а не по логике и функциям.

5. Многомерные модели данных

Модель используют для оптимизации баз данных и ускорения поиска информации. Обычно применяют в OLAP (интерактивная аналитическая обработка), например, при анализе тенденций, прогнозировании продаж, финансовой отчётности и в других целях.

Практики моделирования данных 

Работающие модели определяются по качеству ответов на вопросы пользователей. Практики, которые стоит применять: 

1. Ставьте понятие цели

Определите конечную цель, чтобы получить результат, который должен привести к улучшению работы бизнеса. Эффект появится, если чётко представлять, что изменит или улучшит моделирование. Сначала обозначьте желаемый результат, потом начните моделировать данные. 

2. Упрощайте модели

В начале работы модели стоит сделать небольшими и простыми. Постепенно добавятся новые наборы данных. 

3. Организуйте данные на основе фактов, измерений, фильтров и порядка

Для точного ответа на бизнес-вопросы, отслеживайте факты, фильтры, измерения и порядок данных. Возьмём пример — розничный бизнес, где 100+ магазинов. Собственник хочет узнать, какая торговая точка продала больше товара N за последний год. 

«Фактами» будут данные о продажах продукта в каждом магазине, «измерением» — продукт и местоположение магазина. «Фильтр» — последние 12 месяцев, а «порядок» — 10 лучших магазинов (от большего объёма продаж к меньшему в списке). Такой формат организации модели данных генерирует надёжную бизнес-аналитику.

4. Проверяйте и снова проверяйте

Если моделировать данные для масштабного проекта, важно дважды проверить модель перед следующим шагом. Такая практика защитит от ошибок.

Инструменты моделирования данных

Чтобы найти инструмент для моделирования данных, который отвечает потребностям бизнеса, проверьте: 

  1. понятность организации больших объёмов данных;
  2. наличие визуального представления сложных тем;
  3. функцию упрощения отображения данных в масштабах предприятия. 

Некоторые инструменты моделирования данных:

  1. erwin Data Modeler — сервис компании Quest, который используют для проектирования, визуализации и составления отчётов о данных. 
  2. Enterprise Architect визуально моделирует и проектирует, поддерживает моделирование информации для бизнес-процессов.
  3. ER/Studio умеет отображать сложные данные, поддерживает размерное и реляционное моделирование данных.
  4. Altcraft Platform — платформа, которая автоматизирует маркетинг и объединяет данные с разных источников в единый профиль. Аналитика наглядно отображается в real-time режиме в отчётах и диаграммах. Платформа быстро обрабатывает гигабайты данных и за секунды визуализирует информацию в отчётах. 
Пример моделирования данных в Altcraft Platform

Источник: Lytics