Сервіси, які точно знають, що хоче клієнт: як FAVBET Tech впроваджує штучний інтелект для покращення UX

UX для FAVBET Tech – це місток між технологіями, які застосовують для створення продуктів, та рівнем довіри й задоволеності клієнтів. Щоб підвищити останнє, майже в кожен етап розробки звертаються за допомогою до big data та ШІ. На сьогодні понад 50% проєктів, над якими працює команда Data Science, пов’язані із користувацьким досвідом.

Як саме влаштований процес розробки та як ШІ впливає на конверсію, в партнерському матеріалі розповідає тимлід команди Data Science в FAVBET Tech, Олександр Стратієнко.

Як працюють із сирими даними

Big Data — це величезні обсяги інформації, що збираються з різних джерел, тоді як штучний інтелект використовує ці дані для навчання та прийняття рішень. Ці дві технології невід’ємно пов’язані між собою, і саме завдяки їм сучасні ШІ-рішення точні та ефективні.

Олександр Стратієнко, Data Science в FAVBET Tech

Для безпосереднього збору та обробки великих даних виділена окрема команда дата-інженерів. До її задач також входить:

Побудова та розвиток дата-платформи. Команда створює інфраструктуру, яка може ефективно масштабуватись та підтримувати сучасні технології роботи з даними.
Інтеграція джерел даних. Це включає підключення різноманітних джерел даних — від транзакційних баз даних до зовнішніх API — і забезпечення їхньої доступності для подальшої обробки.
Розробка ETL/ELT-процесів. ETL (Extract, Transform, Load) — це процес, у якому дані витягуються з джерел, трансформуються в потрібний формат і завантажуються в кінцеве сховище. В ELT-підході спочатку дані витягуються і завантажуються в сховище, а трансформація відбувається пізніше.
Забезпечення аналітики. Платформа, створена дата-інженерами, дозволяє проводити різні види аналітики:
- BI-аналітика (Business Intelligence): для створення звітів та дашбордів.
- Ad-hoc аналітика: для оперативного аналізу даних за запитом.
- Operational Analytics: для інтеграції результатів аналізу в реальні бізнес-процеси.

Одним з популярних підходів до організації роботи з даними є використання data lakehouse. Це гібридне рішення, яке поєднує:

Data Lake: місце для зберігання великих обсягів сирих даних у їхньому первісному вигляді.
Data Warehouse: сховище для структурованих даних, які підготовлені для аналітики (у нашому випадку це Iceberg таблиці).

Загалом, процес виглядає наступним чином:

Дані з транзакційних джерел потрапляють у datalakehouse за допомогою ELT-процесів.
У datalakehouse виконуються необхідні трансформації, які забезпечують готовність даних до аналізу.
Аналітики використовують підготовлені дані для створення звітів, дашбордів та інших інструментів аналізу.

Збір даних — це безперервний процес, який проводять через сервіс AWS Glue. Регулярно бази даних поповнюються новими даними, на основі яких працюють математичні моделі.

Як розробляють ШІ-сервіси для UX

Раніше ШІ в FAVBET Tech грав допоміжну роль, наразі — ключову. Це обумовлено стрімким зростанням кількості даних, яку треба аналізувати. Сервісами команди Data Science користуються відділи компанії, що працюють з клієнтами. Зокрема маркетинг, ретеншн та ризик-департамент.

Сама команда DS складається з:

дата-аналітиків, які аналізують клієнтів;
дата-інженерів, які збирають і обробляють дані;
дата-саєнтинстів, які розробляють математичні моделі.

Ось приклади сервісів та послуг, які вони випускають:

Персоналізовані пропозиції сервісів та програм лояльності.
Допомога з UX-дизайном. ШІ може порівняти різні підходи в інтерфейсах і обрати кращий.
Рекомендаційні системи ігор та івентів.
Сегментація клієнтів і розуміння, як комунікувати з кожним із них.
Автоматизація підтримки на базі LLM-моделей. Це новий проєкт, над яким FAVBET Tech працює наразі та планує запустити його у 2025 році.

Процес розробки таких сервісів може займати декілька місяців. Основними алгоритмами є:

Факторизація матриці.
Градієнтний бустінг.
Нейронні мережі.

Основний підхід, який застосовують для реалізації матричного алгоритму — це розклад матриці. Один з базових підходів реалізації матричного алгоритму є ALS (Alternating Least Squares):

Уявимо, що є матриця N x M, де N — це кількість користувачів, а M — це кількість товарів. Значеннями матриці будуть взаємодії користувачів з товарами.

Ця матриця має багато пропущених значень, тому що кожен користувач взаємодіє з обмеженою кількістю товарів. Ідеєю матричної факторизації є розкладання на дві підматриці:

матриця користувачів з розмірами N x K
матриця товарів з розмірами K x M (де K — кількість латентних факторів, що описують користувачів та товари).

В результаті кожен користувач та товар буде представлений як К-вимірний вектор. Ці вектори будуть обчислені таким чином, щоб добуток цих підматриць відповідав реальним спостереженням в початковій матриці. У відновленій матриці всі значення будуть заповнені, новостворені значення будуть прогнозуванням корисності товару для користувача.

Таким чином можна виділити, наприклад, топ-20 товарів, цікавих користувачу.

Як оптимізують алгоритми та вимірюють їхню ефективність

Більшість ШІ-алгоритмів не потрібно розробляти з нуля, оскільки вже існують готові бібліотеки й фреймворки створені опенсорс-комʼюніті та великими техкомпаніями (як-от Meta, Amazon, Google). Виключенням є математичні моделі, які використовують для прогнозування ймовірностей подій у спорті. Втім, навіть із готовими алгоритмами багато часу витрачається на перевірку того чи іншого підходу під конкретну задачу.

Оновлення алгоритму потребує постійних експериментів зі зміною даних і підходів до моделювання. Перш за все, оновлена модель має демонструвати кращі метрики на історичних даних, ніж в тієї моделі, що існує.

Процес продуктизації (деплою) моделі ділиться на декілька етапів:

Перший етап — це впровадження моделі на тестовому середовищі. Тестове середовище симулює продакшн, і дозволяє знайти та виправити помилки (баги) до того, як модель потрапить на основну платформу.
Другим етапом є тестування ефективності моделі на реальних даних. Нова модель має показати кращі результати, щоб замінити модель, що існує. Якщо нова модель на реальних даних не покращує ключові показники ефективності, то ми продовжуємо працювати зі старою (основною) моделлю.

Вимірювання ефективності моделей напряму залежить від задачі, яку вона вирішує. Наприклад, для моделі, яка має повернути клієнтів, які пішли з платформи, основною метрикою буде конверсія або відсоток людей, які повернулись, від тих, з ким була проведена комунікація. А у випадку рекомендацій це може бути конверсія, місце у списку рекомендованих ігор, час, проведений у цих іграх тощо.

Челенджі та плани

Основна проблема для впровадження рішень на базі штучного інтелекту — це неякісні або пропущені дані. І це те, що намагаються мінімізувати дата-інженери під час обробки сирих даних.

Другий великий челендж — це час на розрахунок і обробку інформації. Щоб встигати робити все вчасно, FAVBET Tech використовує сервіси від Amazon: вони допомагають автоматично масштабувати та розподіляти ресурси між сервісами, що економить час і покращує ефективність роботи команди.

Загалом за останній рік в компанії додали багато нових технологій, які спрощують розробку і зменшують час, витрачений на продуктизацію. Сервіси Амазон, які легко взаємодіють між собою, дозволяють достатньо швидко зібрати дані для аналізу, зробити бейзлайн, протестувати його на історичних даних і візуалізувати результати. Прикладом таких сервісів є S3, Glue, Athena, Sagemaker і QuickSight.

В наступному році FAVBET Tech планує ще більше розширити цей список. Також компанія очікує, що для створення персоналізованих сервісів буде використовуватися ще більше характеристик користувачів.