25.08.2023 Публикации

От простоя бетономешалок до проваленной марсианской миссии за 125 млн $. Как некачественные данные могут приводить к потерям?

В далеком 1998 году космическое агентство США запустило аппарат Mars Climate Orbiter для исследования марсианского климата и съемки поверхности с орбиты. Спустя 11 месяцев полета аппарат успешно прибыл к Марсу и начал торможение, но прошел над поверхностью Марса на высоте 57 км вместо расчетных 110 км и распался в атмосфере.

Причиной такого позднего торможения и потери аппарата из-за перегрузок стали некачественные, нестандартизированные данные.

Навигационная компания, ответственная за модуль управления, использовала в формулах и расчетах метрическую систему, а командный центр НАСА — английскую (футы, дюймы, мили). Когда настало время корректировки скорости и высоты для выхода на орбиту, аппарат ожидал данные в метрах и ньютонах по Международной системе единиц, а получил в фунт-силах.

В результате этой ошибки программа исследования Mars Surveyor 98 завершилась полной неудачей, все дальнейшие планы по изучению Марса были полностью пересмотрены, а ущерб составил $125 млн.

Единственным научным результатом провальной миссии стал снимок Марса, сделанный с расстояния 4,5 млн км.

Одно из основополагающих правил применения бизнес-аналитики гласит: качество решений напрямую зависит от качества данных. Качество должно определяться конкретными измеримыми показателями. В этом материале рассмотрим на примерах, как определить качество данных и улучшить его.

Показатели и метрики качества данных

Качество — это такая характеристика данных, которая отражает их способность (или неспособность) решать бизнес-задачи.

В таблице ниже приведены 7 основных показателей качества с примерами из справочника о клиентах и метриками, которые позволяют оцифровать каждый показатель.

    Реальные кейсы, когда качество данных становилось причиной проблем в бизнесе

    Марс далек от нас, но проблемы, возникающие из-за некачественных данных ближе и реальнее, чем кажутся. Чтобы показать, что некачественные данные – это не просто ошибки в справочниках, а реальные убытки компаний, рассмотрим конкретные примеры влияния данных на бизнес-процессы.

      Недостоверные данные

      Производитель считает, что знает точное местонахождение грузовика, перевозящего готовую продукцию с производственной площадки в распределительный центр. Однако оказывается, что данные о местоположении неверны. Грузовик прибывает позже, возникает недостаток товара на складе и на полках, а значит – упущенная выгода.

      Неполные данные

      Допустим, вы хотите оценить работу поставщиков товаров и отслеживаете сроки доставки. Однако в вашей системе поле о планируемом времени доставки является обязательным и заполняется, а поле о фактическом сроке - необязательное, поэтому оно часто остается незаполненным. В итоге в системе не хватает существенной информации о качестве работы поставщиков, и вы не можете планировать работу с ними.

      Неоднозначные данные

      В системе учета технического обслуживания и ремонта оборудования есть поле «Причина неисправности». Оно имеет форму раскрывающегося списка и включает опцию «Другое». Если не определены четкие правила заполнения полей, в отчете в 80% случаев отказ техники произошел по причине «Другое». Из-за этого производитель не может улучшить работу оборудования, так как не понимает, где чаще всего возникает проблема.

        Дублированные данные

        На первый взгляд, дублирование данных не кажется серьезной проблемой. Но, например, если клиент появляется в вашей CRM более одного раза, это не только занимает дополнительное место в хранилище, но и приводит к задвоению работы отдела маркетинга и продаж: вы тратите лишние силы и деньги на многократное взаимодействие с одним и тем же клиентом. И для клиента подобная назойливость с вашей стороны из-за ошибок в CRM может стать причиной прервать сотрудничество.

        Устаревшие данные

        Допустим, покупатель однажды заполнил анкету ритейлера для программы лояльности и сообщил, что у него нет детей. Прошло время, возможно, у клиента уже появились семья и дети, и он готов тратить свой бюджет на детское питание и одежду, но для ритейлера этот клиент не попадает в сегмент «Клиенты с детьми», а значит, он не получает релевантных предложений.

        Несвоевременно обновляемые данные

        Пример из строительной отрасли: система слежения за загруженностью автомашин может показывать, что бетономешалка в данный момент недоступна только потому, что ответственный сотрудник вовремя не обновил статус. Это становится причиной простоя техники и приостановки работ там, где сейчас нужна бетономешалка.

          Лучшие практики управления качеством данных

          Теперь, когда мы на примерах рассмотрели негативное влияние некачественных данных на бизнес, самое время рассмотреть способы улучшить их качество.

            Сделать качество данных приоритетом в компании

            Следует убедиться, что каждый сотрудник понимает проблемы, связанные с низким качеством данных, а также разработать корпоративную стратегию использования данных с четкими пользовательскими ролями с правами и ответственностью. Мониторить качество данных удобно с помощью дашборда, который может содержать показатели, описанные в начале статьи.

              Автоматический ввод данных

              Причиной ошибок в данных часто является ручной ввод. Если автоматизировать этот процесс, например, с помощью автозаполнения, выбора из выпадающего списка и других технических средств, данные станут намного чище.

                Предотвращение дубликатов, а не только их устранение

                Дубликаты можно регулярно чистить, хотя для больших баз это проблематично. Вместо этого можно создать правила обнаружения аналогичных записей, которые запрещают создание дубликата или предлагают объединить записи.

                Внимание к метаданным

                Метаданные – это сведения о данных. Простой пример: метаданные содержат сведения о времени внесения изменений в данные. Благодаря этому мы понимаем, какие сведения наиболее актуальные, но при этом имеем доступ и к историческим данным. Кроме того, с помощью метаданных устанавливаются тип данных в каждом поле и маски ввода для значений. Это предотвращает ошибки на уровне логики базы данных.

                  Управление качеством данных: этапы процесса

                  Управление качеством данных — это процесс настройки, который направлен на достижение и поддержание высокого качества данных. Его основные этапы включают определение порогов и правил качества данных, оценку качества данных, решение проблем с качеством данных, мониторинг и контроль данных. Чтобы дать максимально понятное объяснение, мы выйдем за рамки теории и объясним каждый этап примером, основанным на данных клиентов.

                    1. ОПРЕДЕЛИТЕ ПРАВИЛА КАЧЕСТВА ДАННЫХ И ЦЕЛЕВЫЕ ЗНАЧЕНИЯ МЕТРИК КАЧЕСТВА

                    Может показаться, что единственный целевой вариант — идеальные данные, которые на 100% непротиворечивы, на 100 % точны и т. д., но это не так. Во-первых, достижение 100% показателей для всех данных требует больших затрат и усилий, поэтому обычно компании решают, какие данные являются критичными, и сосредотачиваются на них. Во-вторых, не всегда нужно 100% идеальное качество, иногда можно обойтись и «достаточно хорошим» уровнем. Таким образом, компании самостоятельно определяют разные пороги качества для разных данных.

                    Разберем на примере:

                    - Вы решили, что поле ФИО клиента критично и поставили для него порог качества 96%, а поле даты рождения менее важно – вас устроит порог 80%.
                    - Следующим шагом вы определяете, что поле ФИО должно соответствовать показателям «Полнота» и «Точность». Поскольку вы выбрали несколько показателей качества данных для ФИО клиента, каждый из них должен соответствовать порогу качества 98%.

                    Для проверки полноты поля ФИО правило будет следующим:

                    «ФИО клиента не должно быть пустым»

                    Для проверки точности правила будут:

                    «ФИО клиента должно содержать хотя бы один пробел»
                    «ФИО клиента должно состоять только из букв, цифры не допускаются»
                    «Первые буквы каждого слова в ФИО клиента должны быть заглавными».

                    - Для поля «Дата рождения» главным показателем вы выбрали «Упорядоченность». Правило проверки будет следующим:

                    «Дата рождения должна быть допустимой датой, попадающей в интервал с 01.01.1910 по 01.01.2010».

                      2. ОЦЕНИТЕ КАЧЕСТВО ДАННЫХ

                        Теперь посмотрим на 8 записей из примера и начнем их профилировать – то есть, исследовать их для выявления ошибок данных и расчета метрик качества. Применим к каждой из записей правила, составленные в предыдущем пункте:

                        • ФИО клиента не должно быть N/A. Все записи соответствуют правилу, значит показатель по этому правилу – 100%. Показатель полноты данных выше установленного порога в 96%.
                        • ФИО клиента должно содержать хотя бы один пробел. 100% данных соответствуют правилу
                        ФИО клиента должно состоять только из букв, цифры не допускаются, правилу соответствуют 88% записей.
                        Первые буквы каждого слова в ФИО клиента должны быть заглавными. Опять получаем 88% записей.
                        Таким образом, суммарно показатель точности ФИО клиента составил 92% (100+88+88)/3. Этот показатель ниже установленного нами порога в 96%.
                        • Дата рождения должна быть допустимой датой, попадающей в интервал с 01.01.1910 по 01.01.2010. Правилу соответствует 75% записей, что ниже установленного нами порога в 80%.

                        3. УСТРАНИТЕ ПРОБЛЕМЫ С КАЧЕСТВОМ ДАННЫХ

                        На этом этапе необходимо понять, что вызвало ошибки в данных, и устранить первопричину.

                        В примере с полем ФИО виноват человеческий фактор. Проблему можно решить, создав стандарты ручного ввода данных и соответствующие KPI сотрудников, ответственных за заполнение CRM-системы. Рекомендуется также установить маску ввода в метаданных для этого поля.

                        В примере с полем даты рождения введенные данные не проверялись на соответствие формату или диапазону даты. Чтобы избежать таких ошибок в будущем, нужно установить правило автоматической проверки в системе, которое не будет принимать дату, если она не соответствует формату и диапазону.

                          Шаг 4. МОНИТОРИНГ

                          Управление качеством данных — это не разовое мероприятие, а непрерывный процесс. Данные постоянно пополняются: появляются новые клиенты, компания может начать отслеживать новые показатели или обогатить свои данные из внешних источников. Все это потребует проверки новых сведений на соответствие заданным правилам, а иногда даже пересмотра правил качества.

                            Инструменты для работы с качеством данных

                            В настоящее время рынок располагает обширным набором технических инструментов управления качеством данных. Например, исследовательская компания Gartner предлагает следующие средства повышения качества информации:

                            • Инструменты профилирования собирают статистику о данных, а затем используют ее для оценки качества.
                            • Инструменты парсинга и стандартизации разбивают данные на компоненты и приводят их к единому формату.
                            • Инструменты очистки удаляют неправильные или повторяющиеся записи данных или изменяют значения в соответствии с определенными правилами и стандартами.
                            • Инструменты сопоставления интегрируют связанные записи.
                            • Инструменты мониторинга контролируют постоянство качества данных.
                            • Инструменты обогащения находят внешние данные и интегрируют их в существующи
                            Хитрость в том, что некоторые из них сосредоточены на определенной категории вопросов качества данных, а другие охватывают несколько аспектов.

                            Выбор достаточно широкий. Специализированные решения уровня Enterprise с развитым функционалом — это, например, IDQ (Informatica Data Quality), Attaccama ONE, Trillium DQ. Часто функционал по управлению качеством данных встроен в универсальные дата-платформы. Отдельно хочется упомянуть отечественные решения в сфере управления качеством данных: это Юнидата QD, Datareon Platform, SDP Data Quality, платформа Логином. Для профилирования данных рекомендуем воспользоваться бесплатной утилитой Attaccama DQ Analyzer. Тем не менее многие компании предпочитают собственные разработки для управления качеством данных.

                              Чтобы выбрать правильные инструменты, вы должны либо посвятить значительное время исследованиям, либо позволить профессиональным консультантам сделать эту работу за вас.

                              Резюме

                              Некачественные данные кардинально снижают эффективность бизнес-аналитики, поскольку решения, основанные на такой аналитике, не могут быть точными. Если вы хотите получать ценность из данных, которыми обладает компания, первое, что нужно сделать, – определить, насколько вы можете доверять своим данным. Компания Qlever Solutions предлагает услугу бесплатного экспресс-аудита данных. По результатам аудита мы определяем есть ли проблемы в данных компании и предлагаем варианты их устранения. Наша команда обладает опытом управления качеством данных, который подтвержден реализованными проектами в строительстве, производственной и нефтегазовой отраслях.

                                Хотите повысить качество принятия решений?

                                Оставьте свои контакты, и мы проведем бесплатный экспресс-аудит данных, который поможет вам предотвратить потери и повысить качество принятия решений