Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Gemini тепер вміє створювати файли PDF, DOCX, Google Docs та інші

Компанія Google розширила можливості свого чат-боту Gemini. Тепер він може генерувати готові файли, придатні до…

30.04.2026

Lovable запускає мобільний застосунок для вайб-кодування для iOS та Android

Попри посилений контроль Apple над поширенням в App Store мобільних додатків для вайб-кодингу, стартап Lovable…

29.04.2026

Коли баг гірший за вірус: помилка в коді перетворила шифрувальник Vect на «винищувача» файлів

Фахівці з кібербезпеки виявили критичну помилку в новому вірусі Vect, через яку відновлення даних стає…

29.04.2026

Amazon Quick: персональний агент від AWS для повної автоматизації робочих завдань

Компанія AWS офіційно представила десктопний застосунок Amazon Quick — персонального ШІ-асистента, який працює в браузері,…

29.04.2026

Anthropic запускає Claude for Creative Work: конектори для творчої роботи

Компанія Anthropic випустила дев'ять нових конекторів Claude, які поєднують віртуального помічника з креативними інструментами на…

29.04.2026

NASA випробувала літієвий двигун для польотів на Марс. Рахуємо, скільки це в павербанках

Космічна агенція NASA повідомила, що в лютому 2026 року інженери Лабораторії реактивного руху (JPL) у…

29.04.2026