Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Новачки все менше шукають роботу у фронтенді

Незважаючи на те, що фронтенд залишається найпоширенішою категорією серед кандидатів, які шукають роботу в українському…

10.09.2025

Microsoft випустила інсайдерську збірку Visual Studio 2026

Microsoft завершує роботу над серйозним оновленням середовища розробки Visual Studio, головною метою якого є впровадження…

10.09.2025

Claude тепер може створювати та редагувати файли

Чат-бот на базі моделей Claude від компанії Anthropic тепер може створювати та редагувати електронні таблиці…

10.09.2025

Користувачі Windows зможуть працювати з файлами без необхідності їх відкривати

Microsoft тестує нові функції Провідника на базі штучного інтелекту, які дозволяють користувачам Windows 11 працювати…

09.09.2025

Nvidia відкрила для українських студентів безкоштовний доступ до 11 курсів про штучний інтелект

Компанія Nvidia разом з Київським IT-кластером запускає для українських університетів безплатний доступ до платформи Deep…

09.09.2025

Google додає в Gemini підтримку аудіофайлів, завантаження папок з кодом і репозиторіїв

Компанія Google додала в Gemini можливість завантаження аудіофайлів на всіх платформах: Android, iOS та у…

09.09.2025