Рубріки: Новини

DeepSeek випускає нову безкоштовну модель V3-0324. Вона краща в програмуванні, ніж GPT-4o

Дмитро Сімагін

Китайська компанія DeepSeek випустила нову велику мовну модель, яка не тільки безкоштовна, але й перевершує Claude Sonnet 3.5. Модель DeepSeek-V3-0324 важить 641 гігабайт, має 685 мільярдів параметрів і доступна для комерційного використання за ліцензією MIT. Ще однією перевагою є те, що вона може працювати безпосередньо на апаратному забезпеченні споживчого класу, зокрема Mac Studio від Apple з чіпом M3 Ultra, пише Venture Beat.

Хоча Mac Studio за $9499 може розтягнути визначення «споживчого апаратного забезпечення», можливість запускати таку масивну модель локально, без використання дата-центрів, є серйозним ударом по маркетинговій стратегії OpenAI.

«Випробував нову DeepSeek V3 на своєму внутрішньому стенді, і вона показала величезний стрибок у всіх показниках у всіх тестах. Тепер це найкраща модель без міркування, яка скидає Sonnet 3.5», — пише дослідник штучного інтелекту Xeophon.

На відміну від Sonnet, для використання якої потрібна платна підписка, модель DeepSeek-V3-0324 доступна для завантаження та використання будь-кому.

DeepSeek-V3-0324 використовує архітектуру суміші експертів (MoE), яка принципово переосмислює роботу великих мовних моделей. Традиційні моделі активують усю кількість параметрів для кожного завдання, але підхід DeepSeek активує лише близько 37 мільярдів із 685 мільярдів параметрів під час конкретних завдань.

Ця вибіркова активація являє собою зміну парадигми ефективності моделі. Активуючи лише найбільш релевантні «експертні» параметри для кожного конкретного завдання, DeepSeek досягає продуктивності, порівнянної з набагато більшими повністю активованими моделями, при цьому різко знижуючи обчислювальні вимоги.

Розробник Саймон Віллісон зазначив, що випуск V3-0324 є потенційно значним зсувом у розгортанні ШІ. У той час як традиційна інфраструктура штучного інтелекту зазвичай покладається на кілька графічних процесорів Nvidia, які споживають кілька кіловат енергії, Mac Studio споживає менше 200 Вт під час роботи. Цей розрив ефективності свідчить про те, що індустрії ШІ, можливо, доведеться переглянути припущення щодо вимог до інфраструктури для продуктивності моделі найвищого рівня.

Останні статті

Слабкий пароль зруйнував 158‑річну британську компанію

Логістична компанія KNP Logistics Group, відома під брендом Knights of Old, припинила роботу після того, як хакери з угруповання…

23.07.2025

Відповідала за Резерв+ та Армія+. Заступниця міністра оборони Катерина Черногоренко подала у відставку

Катерина Черногоренко, яка з вересня 2023‑го очолювала цифрову трансформацію в Міністерстві оборони України, оголосила про завершення роботи…

23.07.2025

Ілон Маск: перший гігаватний суперкомп’ютер Colossus 2 запустять в найближчі тижні

Засновник компанії xAI Ілон Маск поділився про майбутнє найбільшого в світу дата-центру, який зараз будується…

23.07.2025

Alibaba випустила «найпотужнішу» LLM-модель для програмування — Qwen3-Coder

Alibaba представила нову велику мовну модель з відкритою ліцензією Qwen3-Coder. У компанії назвали модель найкращим…

23.07.2025

Amazon вводить обмеження на безкоштовне використання Kiro

Amazon Web Services (AWS) обмежує безкоштовне використання Kiro,  інструменту для вайб-кодингу, який має функціонал інтегрованого…

23.07.2025

Вийшов Python 3.14 RC1: реліз-кандидат з прискореним інтерпретатором

Команда Python оголосила про вихід першої версії реліз-кандидата Python 3.14. Це фінальна стадія перед повноцінним…

23.07.2025