Рубріки: Новини

Alibaba представила сімейство моделей Qwen3. Вони ефективніше працюють з кодом, ніж DeepSeek

Дмитро Сімагін

Китайська компанія Alibaba представила нову серію моделей з відкритим кодом Qwen3. Як запевняють її розробники, Qwen3 краща за DeepSeek у продуктивності в декількох сферах застосування, в тому числі при роботі з кодом. Нова модель також значно знижує витрати на розгортання, порівняно з іншими основними моделями. Про це повідомляє Bloomberg.

Дві моделі серії Qwen3 включають так звані «змішані моделі експертів» (mixture-of-experts, MoE), які імітують людське мислення. Більшість моделей доступні або скоро будуть доступні для завантаження за відкритою ліцензією на платформах Hugging Face і GitHub. Найменша модель має 0,6 млрд. параметрів, флагманська Qwen3-235B-A22B — до 235 млрд. параметрів.

«Qwen3-235B-A22B досягає конкурентоспроможних результатів у еталонних оцінках кодування, математики, загальних можливостей тощо в порівнянні з іншими моделями вищого рівня, такими як DeepSeek-R1, o1, o3-mini, Grok-3 і Gemini-2.5-Pro», — стверджується в пості Alibaba Qwen на X. 

Для розгортання компанія-розробник рекомендує використовувати такі фреймворки, як SGLang і vLLM. Для локального використання — такі інструменти, як Ollama, LMStudio, MLX, llama.cpp і KTransformers. Це гарантує легку інтеграцію Qwen3 у робочі процеси, будь то дослідження, розробка чи продакшн.

Лише кілька тижнів тому Alibaba випустила модель серії Qwen 2.5, яка може обробляти текст, зображення, аудіо та відео. Вона виявилась досить ефективною навіть при роботі безпосередньо на телефонах та ноутбуках.

Останні статті

Microsoft випустила Copilot Cowork — мультимодальний інструмент для запуску агентів

Microsoft оголосила про початок інтеграції технологій Anthropic у свої сервіси, представивши новий інструмент Copilot Cowork,…

10.03.2026

Anthropic презентує новий інструмент перевірки пул-реквестів Code Review

Компанія Anthropic оголосила про доступність у Claude Code бета-версії нового інструменту Code Review. Він розробленій…

10.03.2026

Набір експлойтів Coruna, який росіяни застосовували для атак на iPhone в Україні, ймовірно створений оборонним підрядником США

Набір експлойтів Coruna, який в 2025 році використовувався російськими хакерами для злому iPhone українських громадян,…

10.03.2026

Anthropic запускає маркетплейс інструментів на базі Claude

Компанія Anthropic запустила Claude Marketplace — каталог програмного забезпечення, створеного сторонніми розробниками на базі LLM-моделей…

09.03.2026

Microsoft: хакери застосовують штучний інтелект на всіх етапах атак

Згідно з новим звітом Microsoft Threat Intelligence, кіберзлочинці використовують штучний інтелект для широкого кола завдань,…

09.03.2026

Найпопулярніший проект GitHub виявився шахрайством: софт, який допоможе «бачити крізь стіни»

Найпопулярніший за останній місяць проект GitHub має явні ознаки шахрайства. Втім, це аж ніяк не…

09.03.2026