DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?

Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике ^[1] и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии – она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.

Попробовать самостоятельно можно на OpenRouter ^[2]. Дело лучше тысячи слов.

Системкарда еще нет. Все, что есть – отзывы благодарных пользователей в Twiter и Reddit. Также есть куцый ченжлог ^[3].

Я провел некое журналистское расследование и выяснил следующее.

Во-первых, OpenRouter безбожно тормозит и залипает при генерации сколько-то большого ответа. Пока что-то сгенерится, можно натурально скипятить чай. Но что вы хотели за халяву?

Во-вторых, стандартные тесты типа “напиши Сапёра” действительно выдают более длинный, детализированный и продуманный код, чем у предыдущей версии, или у актуальной Claude 3.7.

Она с первой же итерации учла все правила игры в Сапёр (типа отметки мин правой кнопкой мыши и таймера), про которые Claude не вспомнила без подсказки. У Claude интерфейс ломался от указания большого размера поля (это было не предусмотрено).

У DeepSeek размер поля сразу регулируется выпадашкой “сложность игры”, а сам интерфейс адаптируется под количество ячеек и не ломается, потому что выполнен с фиксированной шириной и резиной внутри. DeepSeek даже добавила даже красивые анимации для выигрыша и проигрыша.

Поиграть в Сапёра можно здесь ^[4]. Нажмите Skip Intro (это реклама от площадки Playcode), и играйте.

Посмотреть код Сапйра можно здесь ^[5]. Заметьте, что это код первой итерации. Я ничего не подсказывал и не добавлял никаких других инструкций, кроме просьбы сделать Сапёра с красивым современным интерфейсом.

По субъективным ощущениям, сейчас это одна из лучших нерассуждающих моделек. Она не начала делать что-то из ряда вон выходящее. В смысле “воображения”, по моим ощущениям, Claude намного лучше в задачах про “реальный мир”, а ChatGPT – сильно лучше их обоих в задачах про код.

Бенчмарки, к сожалению, практически никогда не передают этих самых личных ощущений. Личные ощущения почему-то оказываются лучше и точнее. Если кто-то попробует продать вам идею, что нейронку нужно выбирать исключительно по скору – гоните его мокрыми тряпками.

Результат в Deep Seek V3-0324 получается очень объемным и детализированным. Как графика в современных играх – она может быть довольно топорной по смыслу, но крайне детализированной и высококачественной с точки зрения ^[6] текстур и моделей.

Из минусов – говорят, новая DeepSeek активно жрёт токены. Мне это проверить не на чем.

Ну и да, размер вырос 671 до 685 миллиардов параметров. Но имхо, основная ценность DeepSeek не в его жирноте, а в том, как гениальные программисты умудрились мастерски оптимизировать техстек. Тренировка изначального DeepSeek-V3 могла стоить всего 5.576 миллионов баксов – из предположения, что аренда GPU H800 стоит около $2 в час. Если это действительно так, то они смогут выкатывать такие обновления регулярно и открыто выкладывать под лицензией MIT.

То есть, это не последняя новость в категории “никогда не было, и вот опять”. Посмотрим, чем ответит им Tencent.

Telegram: @1red2black ^[7]

Автор: olegchir

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13546

URLs in this post:

[1] математике: http://www.braintools.ru/article/7620

[2] на OpenRouter: https://openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

[3] ченжлог: https://www.reddit.com/r/DeepSeek/comments/1jj9l6j/deepseek_v3_0324_changelog/?rdt=38621

[4] здесь: https://2308603.playcode.io/

[5] здесь: https://playcode.io/2308603

[6] зрения: http://www.braintools.ru/article/6238

[7] @1red2black: https://t.me/tg_1red2black

[8] Источник: https://habr.com/ru/companies/bar/articles/894366/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894366

Нажмите здесь для печати.