Рубріки: Новини

Новий безкоштовний агент Tongyi DeepResearch від Alibaba перевершив OpenAI o3 і Claude Sonnet 4

Дмитро Сімагін

Дослідницька команда Tongyi Lab, яка входить в структуру Alibaba, представила нову агентну LLM-модель Tongyi DeepResearch. Вона має відкритий код і призначена для проведення «глибоких досліджень» в інтернеті та складання точних звітів для окремих осіб та організацій. Про це повідомляє Venture Beat.

Як запевняють у Tongyi Lab, це «перший повністю відкритий веб-агент, який досягає продуктивності, нарівні з Deep Research від OpenAI, маючи лише 30 мільярдів параметрів (з них активовано 3 мільярди)».

Бенчмарки, опубліковані Tongyi Lab, демонструють, що Tongyi DeepResearch Agent працює на рівні або перевершує більшість альтернатив. Наприклад, він досяг показника 32.9 на Останньому іспиті людства (HLE) — це найвище досягнення серед усіх протестованих моделей, навіть перевершує o3 від OpenAI.

Ці результати ставлять Tongyi DeepResearch вище за інші моделі з відкритим кодом, такі як DeepSeek V3.1, Kimi K2 та Claude Sonnet 4, за кількістю завдань, незважаючи на його відносно скромний розмір.

Як і LLM Qwen3-30B-A3B, від якої він походить, агент Tongyi DeepResearch доступний безкоштовно для розробників та організацій для завантаження, налаштування та розгортання — навіть для комерційних програм, продуктів та робочих процесів — через платформи HuggingFace, GitHub та ModelScope — за ліцензією Apache 2.0.

Останні статті

«Стягнули $1000 тільки на цьому тижні»: вайб-кодери шоковані тарифами Replit Agent 3

Сервіс вайб-кодингу Replit зіткнувся зі скаргами користувачів, яким довелось попрацювати з найновішою версією помічника з…

18.09.2025

Модель Gemini 2.5 Deep Think виграла чемпіонат з програмування, розв’язавши 10 з 12 завдань

Компанія Google заявила, що її LLM-модель виграла світовий фінал Міжнародного конкурсу коледжів з програмування (ICPC),…

18.09.2025

ChatGPT вдвічі балакучіший, ніж Stack Overflow. Це може бути проблемою

Середня відповідь LLM-моделі на запит, пов'язаний з кодом, становить близько 2000 символів, що набагато більше…

17.09.2025

Цього року 2,6% українських ІТ-компаній переїхали в інший регіон

З січня по серпень 2025 року 7988 українських компаній переїхали в інший регіон країни. ІТ-бізнес…

17.09.2025

Комітет зі стандартів C++ відмовився від спроб покращити безпеку мови за зразком Rust

Комітет зі стандартів C++ відмовився від пропозиції щодо створення суворо безпечної підмножини мови, незважаючи на…

17.09.2025

Google представила платіжний протокол для агентів

Google анонсувала запуск Agent Payments Protocol (AP2) — нового протоколу з відкритим кодом, який дозволяє…

17.09.2025