Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Google: до кінця року всі зможуть створювати відеоігри за допомогою вайб-кодингу

Керівник напрямку Google AI Studio Логан Кілпатрік заявив, що вже до кінця 2025 року кожен…

28.10.2025

«Ви все не так зрозуміли»: Microsoft заперечує, що її штучний інтелект навчають на скріншотах Windows 11

Microsoft стверджує, що не використовує дані користувачів для навчання свого штучного інтелекту. Однак компанія не…

28.10.2025

Український стартап єВізитка представив нову версію цифрових візиток

Підприємці все ще використовують візитні картки, але частка паперових карток з року в рік падає,…

28.10.2025

Прибутки від шкідливого софту падають: жертви перестають платити хакерам

Кількість жертв, які платять хакерам, досягла нового мінімуму: лише 23% компаній, що зазнали зламу, погодилися…

28.10.2025

Стартапи в США переходять на 6-денний графік через конкуренцію з Китаєм

У Сан-Франциско знову стає популярною культура «grind» — позанормовий графік роботи заради успіху стартапу. Молоді…

27.10.2025

Manual QA в Україні: кандидатів стає менше, вакансій побільшало

За останні три роки кандидатів за фахом Manual QA в Україні стало вдвічі менше, число…

27.10.2025