Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge.
Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.
Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу.
Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.
Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.
Компанія Google розширила можливості свого чат-боту Gemini. Тепер він може генерувати готові файли, придатні до…
Попри посилений контроль Apple над поширенням в App Store мобільних додатків для вайб-кодингу, стартап Lovable…
Фахівці з кібербезпеки виявили критичну помилку в новому вірусі Vect, через яку відновлення даних стає…
Компанія AWS офіційно представила десктопний застосунок Amazon Quick — персонального ШІ-асистента, який працює в браузері,…
Компанія Anthropic випустила дев'ять нових конекторів Claude, які поєднують віртуального помічника з креативними інструментами на…
Космічна агенція NASA повідомила, що в лютому 2026 року інженери Лабораторії реактивного руху (JPL) у…