Рубріки: Новини

Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів

Дмитро Сімагін

Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge. 

Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.

Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу. 

Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.

Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.

Останні статті

Microsoft заплатить за знайдені вразливості навіть в чужих програмах

Microsoft переглядає свою програму винагород за виявлення вразливостей. Тепер багхантерів будуть винагороджувати за пошук помилок…

12.12.2025

Cursor випустив візуальний редактор веб-додатків

Стартап Cursor випустив Visual Editor — візуальний редактор інтерфейсів веб-додатків, який не вимагає знання коду.…

12.12.2025

Як будувати кар’єру в IT і кого шукають роботодавці у 2026? Розкажуть на IT Career Conf 25/26 від Neoversity

В умовах стрімких змін на IT-ринку питання кар’єрного розвитку потребує нового погляду: які навички стають…

12.12.2025

Дія.AI: технології, що стоять за першим у світі AI-асистентом для держпослуг

У вересні 2025 року Україна запустила першого у світі AI-асистента в Дії, який не просто…

12.12.2025

Навіть просте автодоповнення коду за допомогою ШІ економить розробникам 3,8 годин на тиждень — дослідження

Загальний вплив штучного інтелекту на продуктивність розробників залежить від багатьох нюансів: мови програмування, цілей, віку,…

12.12.2025

Google випускає Disco — експериментальний браузер, в якому можна створювати веб-додатки

Команда Google Labs представила експериментальний браузер Disco на базі Gemini 3. Він включає інструмент GenTabs,…

12.12.2025