Проблематика якості даних, та способи поширення/комодитизації технологій покращення якості даних

«Дані це нова нафта»(1) – фраза з Форбс яку чули всі, і дійсно важливість інформації для прийняття правильних рішень є критично важливим чинником на всіх рівнях – від держави, до сектору економіки, компанії, чи окремого відділу. Правильно проаналізовані дані можуть породжувати інсайт, показувати де ми є зараз, і куди нам варто рухатись.

Але дуже часто найбільш проблемною частиною є збір і якість зібраних даних, адже якщо якість даних (т.з. Data Quality) страждає, то ми не можемо довіритись їм і висновки зроблені на їх підґрунті будуть хибними, чи щонайменше неточними. І тоді помилки можуть коштувати дуже багато, наприклад тільки в 2022 році компанія Unity виробник однойменного ігрового двигуна втратила приблизно $110M через єдиний інцидент з якістю даних(2).

Водночас процес забезпечення якості даних є доволі комплексним і дорогим, на нього витрачається доволі багато ресурсів стюардів даних, та людей які виступають експертами в доменній сфері, тому процес не є надзвичайно поширеним серед багатьох компаній. Водночас ріст можливостей ШІ, продемонстрований зокрема компанією OpenAI останнім часом, дозволяє здешевити побудову такого процесу і збільшити ринок якості даних, зокрема через автоматизацію побудови правил якості даних. Компанії, які займаються даними, очікують стрибок в розвитку ринку(3), і вводять функціонал автоматизації побудови правил до своїх продуктів, проте вони залишаються обмеженими по можливостях та закритими у власній інфраструктурі продуктів таких компаній (т.з. “vendor lock”), і ринок для систем автоматизації які можна використовувати в різноманітних продуктах і системах залишається відкритим.

Розробка технології (у вигляді чи то сервісу чи продукту) для такої автоматизації, є можливою за допомогою технології графів знань, система буде збирати дані з історичних періодів, накопичувати такі знання про процеси та об’єкти, а потім використовувати ці графи для аналізу нових даних і виявлення дефективних чи неточних значень. Ця технологія, що даватиме свободу вибору інструментів чи дозволятиме вбудовувати його в існуючі продукти, незалежно від типів публічних «хмар» чи і всередині внутрішніх систем компаній, дозволятиме покращити якість даних за менший кошт ніж сучасні системи, не потребуючи зміни технології обробки даних, та не відволікаючи великої кількості експертів на суто технічні проблеми, і дозволяючи їм сфокусуватися на головних стратегічних рішеннях.

[1] hƩps://www.forbes.com/sites/nishatalagala/2022/03/02/data-as-the-new-oil-is-not-enough-four-principles-for-
avoiding-data-fires/?sh=21ea0d5dc208

[2] hƩps://www.montecarlodata.com/blog-bad-data-quality-examples/
[3] hƩps://www.linkedin.com/pulse/data-quality-tools-market-set-see-revoluƟonary-025qf/

Вплив навчання: Ще під час вступу в мене були думки в цьому напрямку, але остаточно тема сформувалась вже після перших модулів навчання, коли я зрозумів, що варто творити значну додану цінність до продукту чи сервісу, і що це є можливим. Приклади успішних продуктів, які приносять ваги в український сектор ІТ мене дуже надихнули, мабуть найважливішим тут були приклади моїх одногрупників, і спілкування з ними та, безумовно, викладачами (інвесторами, консультантами, розробниками нових продуктів, споживачами та дослідниками – за фактом з всією екосистемою). Це живе коло дозволило намацати стежину для реалізації моєї ідеї і не відмовитись від неї попри мої сумніви інженера в душі.

Автор: Новоставський В.І.