Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Автор «вайб-кодингу» прогнозує «слопокаліпсис» — лавину низькоякісного згенерованого коду на GitHub

Відомий ентузіаст штучного інтелекту та екс-дослідник OpenAI Андрей Карпати заявив, що всього за три місяців…

29.01.2026

83% індійських IT-працівників страждають від вигорання. Кожен четвертий працює понад 70 годин на тиждень

Індійську IT-галузь, в якій працює понад 5 мільйонів людей, накрила хвиля самогубств та масові звільнення,…

28.01.2026

Агент кодування Mistral Vibe 2.0 став більш точним, але подорожчав

Французька компанія Mistral AI оновила свій термінальний агент кодування Mistral Vibe до версії 2.0. Інструмент,…

28.01.2026

Мінцифри просить всіх поділитись даними для навчання національної LLM

Мінцифри просить користувачів «увійти в історію» та поділитись текстовими даними для розробки національної LLM. Ці…

28.01.2026

1,5 млн встановлень мають два шкідливих розширення VS Code. Вони викрадають ваш код

Дослідники Koi Security виявили два шкідливих розширення VS Code, які рекламуються як помічники кодування на…

28.01.2026

OpenAI випустила безкоштовний текстовий редактор на базі ChatGPT

OpenAI випустила текстовий редактор під назвою Prism, в який інтегровано ChatGPT. Інструмент допомагає вченим у…

28.01.2026