Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Новою СЕО Sigma Software стане Катерина Тулузова

Sigma Software, що є підрозділом Sigma Software Group, заявила про зміну генерального директора. Компанію очолить…

06.06.2025

У Windows 11 з’явиться новий текстовий редактор Edit, легший за Блокнот. Він працюватиме з командного рядка

Microsoft готує додати у Windows 11 новий «легкий» текстовий редактор Edit. Він важить всього 230…

06.06.2025

OpenAI готує до релізу модель o3-pro. Вона найпотужніша для кодування, але коштує $200

Компанія OpenAI у найближчі тижні планує випустити оновлення для тарифного плану ChatGPT Pro, доступ до…

06.06.2025

СЕО знають, що через штучний інтелект будуть звільнення, але всім брешуть — софтверні інвестори

Керівники компаній часто вводять в оману, розповідаючи, що штучний інтелект лише підвищить продуктивність і не…

06.06.2025

США оголосили нагороду в $10 млн за інформацію про українського хакера, який втік у Росію

Уряд США пропонує до $10 мільйонів за інформацію про місцезнаходження розробника шкідливого програмного забезпечення RedLine…

06.06.2025

Google запевняє, що оновлена модель Gemini Pro 2.5 стала краще працювати з кодом

Google оголосила про оновлення своєї LLM-моделі Gemini 2.5 Pro, яка, за твердженням компанії, стала краще…

06.06.2025