Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge.
Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.
Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу.
Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.
Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.
Microsoft переглядає свою програму винагород за виявлення вразливостей. Тепер багхантерів будуть винагороджувати за пошук помилок…
Стартап Cursor випустив Visual Editor — візуальний редактор інтерфейсів веб-додатків, який не вимагає знання коду.…
В умовах стрімких змін на IT-ринку питання кар’єрного розвитку потребує нового погляду: які навички стають…
У вересні 2025 року Україна запустила першого у світі AI-асистента в Дії, який не просто…
Загальний вплив штучного інтелекту на продуктивність розробників залежить від багатьох нюансів: мови програмування, цілей, віку,…
Команда Google Labs представила експериментальний браузер Disco на базі Gemini 3. Він включає інструмент GenTabs,…