Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Мобілізованим IT-фахівцям обіцяють офіцерське звання і службу за фахом

Військовослужбовці, які мають професійну кваліфікацію у сфері IT, можуть розраховувати на отримання офіцерського звання та…

13.03.2026

Windows 11 отримала підтримку екстремальної частоти оновлення екрану

В останніх збірках Windows 11 версій 24H2 та 25H2, доступних за програмою Windows Insider, з'явилася…

13.03.2026

Meta відкладає реліз LLM Avocado: порівняння з конкурентами поки не вражає

Компанія Марка Цукерберга вирішила взяти паузу в перегонах за лідерство серед LLM. Запуск флагманської моделі…

13.03.2026

Рації, пейджери та телефонні будки: блокування мобільного інтернету повертає росіян у 90-ті

Москва стрімко занурюється в доцифрову епоху: через масштабні відключення мобільного інтернету, які тривають вже тиждень,…

13.03.2026

Тепер Gemini може замовити для вас обід чи викликати таксі

Google розгортає нову функцію Gemini під назвою «автоматизація екрана». Новинка, яка поки доступна лише на…

13.03.2026

Claude тепер вміє створювати графіку та візуалізації

Чат-бот Claude від Anthropic отримав функцію генерації векторної графіки та складних діаграм у реальному часі.…

13.03.2026