Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5

Позавчера DeepSeek загадочно и молчаливо ^[1] залили новую модель на HuggingFace, даже не написав ничего не в блоге, ни в README файле.

Сегодня, наконец, вышел анонс ^[2] с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели). Давайте разбираться, что в этот раз нам подогнали китайские исследователи.

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5 - 1

Количественно

В первую очередь, давайте посмотрим на результаты бенчей по математике ^[3] и программированию:

MMLU-Pro: вырос с 75.9 → 81.2 (+5.3)
GPQA: вырос с 59.1 → 68.4 (+9.3)
AIME: вырос с 39.6 → 59.4 (+19.8) (вау, SOTA, с сильным отрывом)
LiveCodeBench: 39.2 → 49.2 (+10.0)

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5 - 2

В усреднённых результатах по всех тестам мы видим, что V3-0324 обгоняет текущие результаты Claude 3.5 (в целом, 3.5 – старая модель, ничего удивительного). Claude 3.7 почему-то в этих тестах вообще не измерялся.

Интересно, что в заявлениях по бенчам самого DeepSeek – они обгоняют 3.7. Из-за чего в интернете даже разгорелись жаркие споры, а не был ли V3-0324 обучен на Claude 3.7.

Однозначного вердикта нет, разные пользователи считают по разному ^[4], многие считают, что заявления о “краже” 3.7 во многом политические, и Anthropic таким образом в очередной раз пытаются вставить палки в колёса Китаю.

С другой стороны, назвать их безосновательными сложно – китайские модели уже не раз “ловили за руку” на обучении ^[5] на диалогах моделей OpenAI. Учитывая, что в моделях для разработки лидирует Claude, было бы неудивительно, если бы для “программистской” модели они решили дистиллировать ответы Claude 3.7.

Другие обновления

Авторы подсвечивают, что модель прокачалась во фронтенде, разработке веб-интерфейсов:

Улучшение исполняемости кода (то есть написание без ошибок)
Более эстетически привлекательные веб-страницы и игровые интерфейсы

Улучшилось качество Function Calling – вызова кастомных инструментов, предоставленных модели.

Помимо этого, из коробки есть хорошая заточка на чтение контента файлов и обработки результатов веб-поиска – явный заход на территорию агентских систем, будет очень интересно потестировать V3-0324 в Курсоре.

(Если улучшился китайский, но нам это не особо важно)

Многие исследователи говорят, что модель хорошо запускается на Mac Studio, выдавая 20 токенов в секунду. Это довольно медленно, но запуск модели такого масштаба локально (пусть и на весьма дорогой машине) – это, конечно, крайне впечатляющий результат.

И то, что модель подобной мощности и объема выложена в паблик – это тоже, конечно, удивительно здорово.

P.S. Я очень много пишу про разработку c ИИ у себя в телеграм-канале ^[6]. Заставляю ИИ писать хороший код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ (и как раз на днях потестирую эту V3-0324). А ещё недавно стал выкладывать подобные обзоры на ютуб ^[7]. Велком!

Автор: ElKornacio

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13527

URLs in this post:

[1] загадочно и молчаливо: https://t.me/elkornacio/230

[2] вышел анонс: https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

[3] математике: http://www.braintools.ru/article/7620

[4] считают по разному: https://www.reddit.com/r/ClaudeAI/comments/1jjeobd/claude_sonnet_37_vs_deepseek_v3_0324/

[5] обучении: http://www.braintools.ru/article/5125

[6] себя в телеграм-канале: https://t.me/+jw6OMJxcxIUyYTIy

[7] на ютуб: https://www.youtube.com/watch?v=1jPMdkzf29I

[8] Источник: https://habr.com/ru/news/894252/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894252

Нажмите здесь для печати.