Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня. ai.. ai. deepseek.. ai. deepseek. llm.. ai. deepseek. llm. Блог компании BotHub.. ai. deepseek. llm. Блог компании BotHub. искусственный интеллект.. ai. deepseek. llm. Блог компании BotHub. искусственный интеллект. Машинное обучение.

Китайская компания Deepseek только что выпустила свою самую мощную языковую модель. Первые тесты показывают, что новая модель V3 может конкурировать с ведущими проприетарными моделями в отрасли и демонстрирует значительное улучшение в задачах логического мышления.

Модель, доступная на Github, использует архитектуру Mixture-of-Experts (MoE) с общим количеством параметров 671 миллиард, из которых 37 миллиардов активируются для каждого токена. Это значительное увеличение по сравнению с V2, которая имеет 236 миллиардов параметров, из которых 21 миллиард активен во время вывода.

Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня - 1

Обучение также было более обширным, обработав 14.8 триллионов токенов — почти вдвое больше данных, чем в V2. По данным Deepseek, полное обучение заняло 2.788 миллиона часов на H800 GPU и стоило примерно $5.576 миллионов.

Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня - 2

Особенно впечатляет то, что они достигли этого результата, используя кластер всего из 2,000 GPU — это лишь малая часть из 100,000 графических карт, которые компании, такие как xAI и OpenAI, обычно используют для обучения AI. Deepseek объясняет эту эффективность оптимизированным совместным проектированием алгоритмов, фреймворков и аппаратного обеспечения. Одним из самых больших улучшений V3 является его скорость — он может обрабатывать 60 токенов в секунду, что в три раза быстрее, чем его предшественник.

Команда сосредоточилась на улучшении мышления, используя специальный процесс пост-обучения, который использовал данные из их модели “Deepseek-R1“, специально разработанной для сложных задач логического мышления. При тестировании на фоне как открытых, так и проприетарных моделей он достиг наивысших результатов в трех из шести основных бенчмарков LLM, с особенно сильными показателями на бенчмарке MATH 500 (90.2%) и тестах программирования, таких как Codeforces и SWE.

Deepseek-V3 выходит на первое место в трех из шести тестов LLM, используемых Deepseek. Особенно заметны результаты в задачах на рассуждение, таких как математический тест MATH 500 (90,2%) и тесты кодирования Codeforces и SWE.

Deepseek-V3 выходит на первое место в трех из шести тестов LLM, используемых Deepseek. Особенно заметны результаты в задачах на рассуждение, таких как математический тест MATH 500 (90,2%) и тесты кодирования Codeforces и SWE.

По данным Deepseek, V3 демонстрирует производительность, сопоставимую с ведущими проприетарными моделями, такими как GPT-4o и Claude-3.5-Sonnet, во многих тестах, при этом предлагая лучшее соотношение цены и производительности на рынке. Цены на API останутся на уровне V2 до 8 февраля. После этого пользователи будут платить $0.27 за миллион токенов для входных данных ($0.07 за кэшированные хиты) и $1.10 за миллион токенов для выходных данных.

Deepseek V3 становится самой мощной открытой языковой моделью в Китае на сегодня - 4

Модель выпущена под лицензионным соглашением Deepseek (Версия 1.0), которое предоставляет пользователям бесплатную, всемирную, неисключительную и безотзывную лицензию на авторские права и патенты. Пользователи могут воспроизводить, модифицировать и распространять модель, в том числе в коммерческих целях, хотя военные приложения и полностью автоматизированные юридические услуги запрещены.

Основанная всего в прошлом году, компания Deepseek планирует улучшить архитектуру своей модели. Компания хочет преодолеть архитектурные ограничения Transformer, тем самым расширяя границы своих возможностей моделирования, и поддерживать неограниченные длины контекста. Как и OpenAI, компания заявляет, что принимает поэтапный подход к созданию искусственного общего интеллекта (AGI). В настоящее время в ее ассортименте имеются специализированные модели для математики и программирования, доступные как через API, так и для бесплатного локального использования.

Источник

Автор: dilnaz_04

Источник

Rambler's Top100