Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge.
Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.
Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу.
Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.
Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.
Незважаючи на те, що фронтенд залишається найпоширенішою категорією серед кандидатів, які шукають роботу в українському…
Microsoft завершує роботу над серйозним оновленням середовища розробки Visual Studio, головною метою якого є впровадження…
Чат-бот на базі моделей Claude від компанії Anthropic тепер може створювати та редагувати електронні таблиці…
Microsoft тестує нові функції Провідника на базі штучного інтелекту, які дозволяють користувачам Windows 11 працювати…
Компанія Nvidia разом з Київським IT-кластером запускає для українських університетів безплатний доступ до платформи Deep…
Компанія Google додала в Gemini можливість завантаження аудіофайлів на всіх платформах: Android, iOS та у…