Четыре вида аналитики данных: дескриптивная, диагностическая, предиктивная, прескриптивная. Чем отличаются и для чего используются
Способность извлекать максимальную ценность из данных положительно влияет на успех бизнеса и конкурентоспособность компании.
Данные используются для мониторинга и оптимизации бизнес-процессов, помогают лучше понять потребности и поведение клиентов, позволяют управлять рисками и принимать эффективные управленческие решения.
Аналитика данных помогает обосновать эти решения на разных уровнях:
Описательном – объяснить, что произошло
Диагностическом – понять, почему это произошло
Предиктивном – оценить, что может произойти в будущем
Предписывающем – получить варианты решения проблем
В процессе аналитики данные преобразуются в информацию и формируют знания, помогающие действовать своевременно и эффективно в ответ на вызовы рынка.
В материале разбираемся, чем данные отличаются от информации и рассказываем о четырех уровнях анализа данных, которые превращают данные в ценные инсайты.
Разница между данными, информацией и знаниями
Зачастую три этих определения используют взаимозаменяемо, что некорректно.
С точки зрения места в принятии решений данные локализованы во всем мире, знания – в людях, компаниях, устройствах, а информация выступает связующим звеном между ними.
Данные — это факты и цифры, которые не имеют контекста и не интерпретированы.
Сами по себе они не указывают на причины того или иного события и не помогают определить дальнейшие действия. Данные могут поступать из внутренних и внешних источников, быть объективными и субъективными, качественными, количественными и так далее.
Например, набор чисел «10, 20, 30» — это данные, но без дополнительной информации они не говорят о чем-то конкретном.
После обработки, структурирования и интерпретации данные обретают релевантность, смысл и контекст и становятся информацией.
Если набор чисел «10, 20, 30» означает количество продукта 1, продукта 2 и продукта 3, проданного за период, это уже информация, на основе которой можно сделать выводы («Продукт 3 был продан в количестве 30 штук, он продается лучше остальных»).
Когда информацию объединяют с опытом, сравнивают с другой ранее полученной информацией, ищут точки пересечения, предсказывают последствия, она становится знаниями.
Знания всегда полезны для практических действий.
Для демонстрации получения ценности в процессе обработки данных используется концепция DIKW:
Data — данные – лежат в основе пирамиды
Information — информация – образуется в результате выстраивания связей между фактами
Knowledge — знания – дают возможность делать выводы на основе информации
Wisdom — мудрость - позволяет выйти за границы процесса, чтобы использовать его для более масштабных целей
Что такое аналитика данных
Понимая, как данные трансформируются в мудрость, можно сделать вывод о том, что главную ценность представляет собой информация, которую мы получаем, когда данные:
Получили контекст
Разделены на категории
Не содержат ошибок
Агрегированы
Подверглись вычислениям
С этой целью проводится аналитика данных — процесс уменьшения неопределенности данных, их описания, интерпретации и извлечения полезной информации.
Аналитика данных может включать в себя применение статистических и логических методов, инструментов визуализации (BI) и машинного обучения (ML) для изучения данных, поиска закономерностей, трендов и зависимостей.
Существует два уровня развития аналитики данных:
Традиционная аналитика – BI-аналитика – анализ в централизованной системе, которая помогает бизнесу не утонуть в информационном хаосе, визуализировать данные, разрабатывать стратегии и принимать эффективные управленческие решения на основе данных.
Продвинутая аналитика - Data Science (наука о данных) - работа с большими данными (Big Data) для подтверждения гипотез, нахождения закономерностей и формирования прогнозов.
Каждый уровень аналитики делится на виды в зависимости от бизнес-вопросов, на которые он отвечает.
Виды аналитики данных
На схеме ниже продемонстрированы разные виды аналитики, а также зависимость эффективности анализа от его уровня сложности. Чем выше сложность проводимой аналитики, тем больше выгода для бизнеса от нее.
Традиционная аналитика
Дескриптивная (описательная) аналитика
1
Отвечает на вопрос «Что случилось?». Наиболее общий и простой с точки зрения методов и технологий вид аналитики данных. Для проведения анализа используют методы описательной или дескриптивной статистики:
Агрегирование данных – сумма, минимум, максимум
Меры центрированности – медиана, мода, среднее значение
Отношения и пропорции
Информация о событии отображается с помощью таблиц регламентной отчетности и аналитических панелей (дашбордов) с визуализациями в виде ключевых показателей.
Примеры описательной аналитики:
Каждая компания формирует бухгалтерские и финансовые отчеты, которые описывают доходы, расходы и активы компании за определенный период времени. Эти отчеты помогают оценить общее финансовое состояние бизнеса.
Непрерывный сбор данных с производственного оборудования с помощью датчиков помогает промышленным компаниям точно идентифицировать момент сбоя в технологическом процессе.
Девелоперы проводят регулярный анализ данных о ценах на недвижимость, количестве проданных объектов, спросе в разных географических регионах для понимания текущих трендов на рынке недвижимости.
Отчет о прибылях и убытках – простой пример описательной аналитики данных
Диагностическая аналитика
2
Отвечает на вопрос «Почему это произошло?». Помогает выяснить причины произошедших событий, глубже понять проблемы и находить пути их решения.
В этом виде аналитики применяют поиск корреляций (взаимосвязей), регрессионный анализ, анализ временных рядов, определение выбросов и аномалий, фильтрацию.
Для диагностической аналитики используют self-service BI-инструменты, позволяющие пользователю без знаний ИТ самостоятельно проводить исследование данных и создавать визуализации.
Примеры диагностической аналитики:
Факторный анализ - метод диагностической аналитики, который помогает определить, какие факторы влияют на переменные, и какие именно переменные наиболее чувствительны к воздействию этих факторов.
Например, с его помощью можно узнать, как и в какой степени на прибыль компании влияют объем продаж, себестоимость и цена продукции, налоги, производственные затраты. Вычисление самых влиятельных факторов поможет пересчитать юнит-экономику, доработать методологию продаж или запланировать расширение клиентской базы.
Маркетинг может использовать анализ временных рядов для оценки изменений в поведении потребителей в течение маркетинговой кампании.
Производственные компании используют диагностическую аналитику для выяснения причин брака изделий. Для этого проводится анализ нарушений в технологических процессах, степени износа оборудования, качества материалов.
Для понимания причин, по которым клиенты уходят к конкурентам, операторы мобильной связи анализируют данные о качестве связи, стоимости услуг и уровня обслуживания в разные периоды.
HR-аналитика по причинам отклонений предложений о работе
Предсказательная аналитика отвечает на вопрос «Что вероятнее всего случится дальше?». Исторические данные используются для формирования прогнозов и выявления будущих трендов.
Для анализа используют разные виды регрессии - исследования влияния одной или нескольких независимых переменных на зависимую переменную, а также классификацию, кластеризацию, тестирование гипотез и само прогнозирование.
В предиктивной аналитике применяют языки программирования R и Python, инструменты машинного обучения и искусственный интеллект.
Примеры предиктивной аналитики:
На основе исторических данных о продажах, сезонных трендах, праздниках и мероприятиях, а также текущих тенденциях в моде, производитель одежды может спрогнозировать, какие товары будут наиболее популярны в следующем сезоне, оптимизировать производство и запасы на складе.
Банки используют предиктивную аналитику для оценки кредитоспособности клиентов. Актуальные и исторические данные о платежах, кредитных картах и доходах помогают прогнозировать вероятность дефолта.
Транспортные компании могут проанализировать исторические данные о пробках, погодных условиях и дорожных происшествиях, чтобы спрогнозировать время в пути и оптимизировать маршруты доставки.
Дашборд прогнозирования продаж
Прескриптивная (предписательная) аналитика
4
Прескриптивная аналитика отвечает на вопрос «Что мы должны делать?». Это продвинутый вид аналитики, основанный на предыдущих четырех видах.
Наименее структурированный и наиболее комплексный вид аналитики, когда система помогает построить возможные сценарии событий и выбрать наиболее эффективный.
Первостепенную роль в предписательном анализе играет опыт и накопленные знания людей в сочетании с ИИ-ассистентами и методами машинного обучения.
Примеры прескриптивной аналитики:
Модели для определения наилучших методов лечения пациента с учетом его истории болезни, биометрических данных и новых медицинских исследований.
Прогнозирование возможных поломок и предложение сроков ремонта оборудования на основе регулярного мониторинга его состояния.
Прогнозирование вероятности дефолта заемщика и рекомендация конкретных кредитных лимитов и условий займа, основанная на профилях рисков.
В зависимости от задач конкретных подразделений разные виды аналитики могут использоваться параллельно.
Для простых задач будет достаточно диагностической аналитики. Продвинутая аналитика принесет больше результата в работе с большими объемами данных, но потребует разработки регламентов их обработки и хранения, внедрения ML и привлечения экспертов Big Data.
По-настоящему полезной и удобной аналитика данных становится тогда, когда она упрощает повторяющиеся процессы, подстраивается под нужды пользователей и масштабируется вместе с бизнесом. Это возможно в рамках единой аналитической системы в сочетании с внедрением корпоративного хранилища данных.