Wikipedia випустила спеціальний датасет, щоб відволікти увагу ботів
Wikipedia намагається захистити себе від тисяч різноманітних ботів-скрейперів, які сканують дані цієї платформи для навчання своїх моделей штучного інтелекту. Для цього Wikipedia випустила набір структурованих даних, оптимізований для подібних завдань, пише The Verge.
Команда онлайн-бібліотеки сподівається, що використовуючи цей датасет у форматі JSON розробники ШІ відмовляться від застосування ботів для збору інформації, які навантажують її сервери.
Фонд Wikimedia оголосив, що він співпрацює з Kaggle — платформою спільноти наукових даних, яка належить Google і розміщує дані для машинного навчання. Датасет містить «структурований вміст Вікіпедії англійською та французькою мовами». Він «розроблений з урахуванням робочих процесів машинного навчання», що полегшує розробникам штучного інтелекту доступ до машинозчитуваних даних статей для моделювання, тонкого налаштування, порівняльного аналізу, вирівнювання та аналізу.
Контент у наборі даних має відкриту ліцензію і включає підсумки досліджень, короткі описи, посилання на зображення, дані інформаційного поля та розділи статей — за винятком посилань або ненаписаних елементів, таких як аудіофайли.
Вікімедіа вже має угоди про обмін вмістом із Google та Internet Archive, партнерство з Kaggle має зробити дані бібліотеки більш доступними для невеликих компаній і незалежних дослідників даних.
Військовослужбовці, які мають професійну кваліфікацію у сфері IT, можуть розраховувати на отримання офіцерського звання та…
В останніх збірках Windows 11 версій 24H2 та 25H2, доступних за програмою Windows Insider, з'явилася…
Компанія Марка Цукерберга вирішила взяти паузу в перегонах за лідерство серед LLM. Запуск флагманської моделі…
Москва стрімко занурюється в доцифрову епоху: через масштабні відключення мобільного інтернету, які тривають вже тиждень,…
Google розгортає нову функцію Gemini під назвою «автоматизація екрана». Новинка, яка поки доступна лише на…
Чат-бот Claude від Anthropic отримав функцію генерації векторної графіки та складних діаграм у реальному часі.…