«Краще, ніж DeepSeek і OpenAI»: Alibaba випустила модель з відкритим кодом, яка дешевше конкурентів
Компанія Alibaba представила QwQ-32B — нову модель з відкритим кодом з сімейства великих мовних моделей Qwen. Як стверджують її розробники, вона перевершує продуктивність конкурентів: DeepSeek-R1 і o1-mini, незважаючи на свої відносно скромні 32 мільярди параметрів. Про це пише Venture Beat.
Команда, яка працювала над створенням QwQ-32B, запевняє, що менша кількість параметрів дозволяє моделі працювати з меншими вимогами до обчислювальних ресурсів, що сприяє більш широкому застосуванню.
Наприклад, у той час як DeepSeek-R1 має 671 мільярд параметрів, QwQ-32B досягає схожої продуктивності з набагато меншими ресурсами. Вона вимагає лише 24 ГБ відеопам’яті на графічному процесорі (Nvidia H100 має 80 ГБ) у порівнянні з понад 1500 ГБ відеопам’яті для повноцінної роботи DeepSeek R1 (16 відеокарт Nvidia A100). Це підкреслює ефективність використання QwQ-32B.
Модель вже доступна на Hugging Face і ModelScope. Оскільки вона має ліцензію Apache 2.0, це означає, що QwQ-32B може безкоштовно використовуватись для будь-яких комерційних і дослідницьких цілей.
Першу модель сімейства QwQ (скорочення від Qwen-with-Questions), було представлено в листопаді 2024 року. Спочатку ранні ітерації QwQ не вразили експертів, оскільки моделі мали проблеми з тестами програмування, такими як LiveCodeBench, де розробки OpenAI зберігали перевагу.
До кінця 2025 року у Китаї планують налагодити масове виробництво нової технології зберігання даних –…
Один з лідерів у галузі штучного інтелекту, компанія OpenAI, планує запустити свою нову мовну модель…
Google тестує інструмент для вайб-кодування під назвою Opal. Поки він доступний користувачам лише в США…
Маркетплейс мобільних застосунків App Store оновив віковий рейтинг для програм. Додано нові рейтингові обмеження та…
Жительку Аризони, яка облаштувала у себе вдома ферму з 90 ноутбуків, допомагаючи північнокорейським ІТ-спеціалістам видавати…
На канал Android Canary, який прийшов на зміну Android Developer Preview і використовується для тестування…