1. ОПРЕДЕЛИТЕ ПРАВИЛА КАЧЕСТВА ДАННЫХ И ЦЕЛЕВЫЕ ЗНАЧЕНИЯ МЕТРИК КАЧЕСТВА Может показаться, что единственный целевой вариант — идеальные данные, которые на 100% непротиворечивы, на 100 % точны и т. д., но это не так. Во-первых, достижение 100% показателей для всех данных требует больших затрат и усилий, поэтому обычно компании решают, какие данные являются критичными, и сосредотачиваются на них. Во-вторых, не всегда нужно 100% идеальное качество, иногда можно обойтись и «достаточно хорошим» уровнем. Таким образом, компании самостоятельно определяют разные пороги качества для разных данных.
Разберем на примере:
- Вы решили, что поле ФИО клиента критично и поставили для него порог качества 96%, а поле даты рождения менее важно – вас устроит порог 80%.
- Следующим шагом вы определяете, что поле ФИО должно соответствовать показателям «Полнота» и «Точность». Поскольку вы выбрали несколько показателей качества данных для ФИО клиента, каждый из них должен соответствовать порогу качества 98%.
Для проверки полноты поля ФИО правило будет следующим
: «ФИО клиента не должно быть пустым» Для проверки точности правила будут:
«ФИО клиента должно содержать хотя бы один пробел» «ФИО клиента должно состоять только из букв, цифры не допускаются» «Первые буквы каждого слова в ФИО клиента должны быть заглавными».
- Для поля «Дата рождения» главным показателем вы выбрали «Упорядоченность». Правило проверки будет следующим:
«Дата рождения должна быть допустимой датой, попадающей в интервал с 01.01.1910 по 01.01.2010».