Рубріки: Новини

Data-брокери на руїнах стартапів: розробники LLM-моделей скуповують архіви компаній

Дмитро Сімагін

Ринок навчання штучного інтелекту виходить на новий рівень: тепер «паливом» для нейромереж стають не лише публічні дані, які можна скачати з інтернету, а й приватні корпоративні архіви. Компанії почали активно продавати внутрішні переписки у Slack, робочу пошту та документацію в Jira, оскільки якісні відкриті дані фактично вичерпані, пише Forbes.

Засновниця сервісу для створення субтитрів cielo24 Шанна Джонсон розповіла виданню, що при ліквідації бізнесу змогла заробити сотні тисяч доларів на продажі даних, які накопичила її компанія за 13 років. Сюди входить листування співробітників у Slack, архіви електронних листів та завдань у Jira, терабайти документів та файлів із Google Drive.

З продажем підприємниці допомагав стартап SimpleClosure. За словами його керівника Дорі Йона, попит на дані компаній, які закриваються, постійно зростає: розробники штучного інтелекту «одержимі» пошуком нових даних для навчання моделей.

Нова «золота лихоманка» корпоративних даних

Для розробників агентів та LLM, здатних виконувати складні професійні завдання, абстрактні тексти з Вікіпедії чи форумів більше не мають високої цінності. Їм потрібен реальний контекст: як саме люди вирішують проблеми, як ставляться завдання, які помилки виникають у процесі та як вони виправляються. Саме тому внутрішні чати та пошта стали стратегічним ресурсом.

На цьому фоні вже формується ціла інфраструктура посередників, які пропонують власникам монетизувати їхні цифрові активи. Лише за останній рік SimpleClosure провела близько 100 угод, виплачуючи за один корпоративний архів від $10 000 до $100 000.

Що цінується найбільше?

Вартість даних залежить від їхньої структурованості:

  • Складна логіка: Дані, де завдання в Jira прив’язане до конкретного коду або коміту, коштують дорожче за звичайні документи.
  • Спеціалізація: Найбільший попит мають архіви з фінансової та медичної сфер.
  • Реальність: ШІ-компанії шукають «сирі» дані з внутрішньою логікою процесів, а не ідеально вичищені тексти.

Ризики для приватності та етики

Попри обіцянки анонімізації, експерти з цифрової безпеки б’ють на сполох. Проблема в тому, що:

  1. Повна деідентифікація майже неможлива: Навіть без імен контекст переписки часто дозволяє зрозуміти, про яку компанію або співробітника йдеться.
  2. Відтворення даних нейромережею: Мовні моделі мають властивість запам’ятовувати та іноді видавати фрагменти навчальних даних у відповідях іншим користувачам.
  3. Відсутність згоди: Співробітники, які роками спілкувалися в робочих чатах, зазвичай не давали згоди на продаж своїх думок чи приватних коментарів третім сторонам для навчання алгоритмів.

Наразі регулятори лише починають звертати увагу на цей сегмент ринку, тоді як великі гравці (наприклад, Anthropic) вже розглядають мільярдні інвестиції в створення симуляцій робочих середовищ на основі таких корпоративних архівів.

Нагадаємо, що адміністратори українських сайтів — нова пріоритетна ціль для російських хакерів.

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Останні статті

Оновлений Codex Desktop отримав 90+ плагінів, SSH та вбудований браузер

Компанія OpenAI представила масштабне оновлення свого десктопного застосунку Codex. Воно перетворює інструмент з простого помічника…

17.04.2026

Робочий експлойт за ціною вживаного авто: Claude Opus зламав захист Google Chrome за $2283

Модель штучного інтелекту Claude Opus 4.6 від компанії Anthropic продемонструвала здатність створювати функціональні експлойти для…

17.04.2026

21-річна польська програмістка знайшла та виправила баг у Linux, який старший за неї

Молода польська розробниця Каміла Шевчик змогла розв'язати технічну проблему в інтерфейсі Linux, яка залишалася непоміченою…

17.04.2026

Більше ніяких зависань: Android 17 жорстко обмежить обсяг пам’яті для програм

Компанія Google випустила четверту та фінальну бету Android 17, яка стала важливою віхою на шляху…

17.04.2026

Anthropic випустила Claude Opus 4.7. Повний огляд можливостей нової моделі

Компанія Anthropic офіційно представила свою найпотужнішу на сьогодні LLM-модель — Claude Opus 4.7, яка стала…

17.04.2026

Google дозволить Gemini створювати контент з ваших особистих фото

Компанія Google представила масштабне оновлення для свого чат-бота Gemini, інтегрувавши його з бібліотекою Google Photos…

17.04.2026