Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge.
Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.
Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу.
Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.
Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.
Керівник напрямку Google AI Studio Логан Кілпатрік заявив, що вже до кінця 2025 року кожен…
Microsoft стверджує, що не використовує дані користувачів для навчання свого штучного інтелекту. Однак компанія не…
Підприємці все ще використовують візитні картки, але частка паперових карток з року в рік падає,…
Кількість жертв, які платять хакерам, досягла нового мінімуму: лише 23% компаній, що зазнали зламу, погодилися…
У Сан-Франциско знову стає популярною культура «grind» — позанормовий графік роботи заради успіху стартапу. Молоді…
За останні три роки кандидатів за фахом Manual QA в Україні стало вдвічі менше, число…