Рубріки: Новини

Реліз LLM-моделі DeepSeek R2 затримується. Причина в Nvidia

Дмитро Сімагін

Китайська компанія DeepSeek зазнала невдачі в розробці нової LLM-моделі R2, оскільки їй не вдалось отримати достатню кількість графічних процесорів Nvidia. Про це повідомляє Silicon Angle.

Два анонімних джерела, знайомих з проблемами DeepSeek, повідомили, що компанія вже кілька місяців працює над R2, але для успішного завершення навчання моделі не вистачає потужних графічних процесорів.

DeepSeek здобула популярність на початку цього року, після релізу LLM-моделі R1. Вона виявилася здатною конкурувати з найсучаснішими американськими моделями від компаній OpenAI, Anthropic і Meta, незважаючи на те, що її вартість навчання була значно нижчою, ніж у конкурентів.

Фахівці DeepSeek навчали R1 на кластері з 50 000 графічних процесорів, який включав близько 10 000 відеокарт H100, 10 000 відеокарт H800 та близько 30 000 менш потужних графічних процесорів H20, спеціально розроблених для китайського ринку.

Китайські компанії ніколи не мали можливості легально придбати графічні процесори H100 або H800. Вважається, що деякі з них були таємно поставлені для DeepSeek її інвестором High-Flyer Capital Management, а інші були придбані через підставні компанії. Графічні процесори H20 були отримані легально, але з того часу їх теж стало важко знайти через нові санкції США, які забороняють експорт потужних GPU до Китаю.

Графічний процесор H20 можна порівняти з H100, який Nvidia продає західним компаніям, але його пропускна здатність та підключення навмисно обмежені. Це зроблено для того, щоб відповідати вимогам експортного контролю. Пізніше адміністрація президента Трампа вирішила, що навіть цей спрощений чіп занадто потужний для поставок геополітичному конкуренту США. Тому в квітні 2025 року були запроваджені нові обмеження щодо поставок у КНР.

Повідомляється, що це рішення суттєво зашкодило роботі китайських розробників штучного інтелекту. Хоча в КНР існують деякі місцеві альтернативи, такі як чіпсет Ascend 910B від Huawei, вони менш потужні, ніж H20, і їм бракує підтримки програмного стеку Nvidia CUDA – архітектури програмування, яка використовується для оптимізації програм і моделей штучного інтелекту при роботи на графічних процесорах Nvidia. Це створює проблему, оскільки вважається, що практично всі китайські розробники штучного інтелекту використовують програмне забезпечення CUDA.

 

Останні статті

Ілон Маск звинуватив філософа, який навчає LLM Claude, у відсутності дітей

Ілон Маск розкритикував жінку-філософа Аманду Аскелл, яка в компанії Anthropic відповідає на навчання LLM-моделей серії…

16.02.2026

Google оновлює розширення Conductor для Gemini CLI. Тепер воно автоматично аналізує якість вашого коду

Conductor, представлений Google в грудні як розширення для Gemini CLI, отримав перше оновлення. Тепер інструмент…

16.02.2026

Студенти більше не хочуть вчитись на факультетах інформатики. Але не проти вивчати штучний інтелект

Випускники американських шкіл, які будують плани на майбутнє, все частіше відмовляються від вступу на факультети…

16.02.2026

Ажіотаж навколо агента OpenClaw спровокував дефіцит комп’ютерів Mac: черги до 6 тижнів

Популярність локального агента з відкритим кодом OpenClaw (раніше відомий як Clawbot, Moltbot) спричинила справжню лихоманку…

16.02.2026

Google Docs тепер може стисло переказати ваш текст голосом

Після запуску перетворення тексту в мовлення, яке відкрили користувачам у серпні минулого року, популярний сервіс…

13.02.2026

IBM втричі збільшить найм джуніорів: замість програмування будуть взаємодіяти з клієнтами

Компанія IBM планує потроїти в 2026 році кількість вакансій для фахівців початкового рівня (entry-level) на…

13.02.2026