- BrainTools - https://www.braintools.ru -
Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?
Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике [1] и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии – она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.
Попробовать самостоятельно можно на OpenRouter [2]. Дело лучше тысячи слов.
Системкарда еще нет. Все, что есть – отзывы благодарных пользователей в Twiter и Reddit. Также есть куцый ченжлог [3].
Я провел некое журналистское расследование и выяснил следующее.
Во-первых, OpenRouter безбожно тормозит и залипает при генерации сколько-то большого ответа. Пока что-то сгенерится, можно натурально скипятить чай. Но что вы хотели за халяву?
Во-вторых, стандартные тесты типа “напиши Сапёра” действительно выдают более длинный, детализированный и продуманный код, чем у предыдущей версии, или у актуальной Claude 3.7.
Она с первой же итерации учла все правила игры в Сапёр (типа отметки мин правой кнопкой мыши и таймера), про которые Claude не вспомнила без подсказки. У Claude интерфейс ломался от указания большого размера поля (это было не предусмотрено).
У DeepSeek размер поля сразу регулируется выпадашкой “сложность игры”, а сам интерфейс адаптируется под количество ячеек и не ломается, потому что выполнен с фиксированной шириной и резиной внутри. DeepSeek даже добавила даже красивые анимации для выигрыша и проигрыша.
Поиграть в Сапёра можно здесь [4]. Нажмите Skip Intro (это реклама от площадки Playcode), и играйте.
Посмотреть код Сапйра можно здесь [5]. Заметьте, что это код первой итерации. Я ничего не подсказывал и не добавлял никаких других инструкций, кроме просьбы сделать Сапёра с красивым современным интерфейсом.
По субъективным ощущениям, сейчас это одна из лучших нерассуждающих моделек. Она не начала делать что-то из ряда вон выходящее. В смысле “воображения”, по моим ощущениям, Claude намного лучше в задачах про “реальный мир”, а ChatGPT – сильно лучше их обоих в задачах про код.
Бенчмарки, к сожалению, практически никогда не передают этих самых личных ощущений. Личные ощущения почему-то оказываются лучше и точнее. Если кто-то попробует продать вам идею, что нейронку нужно выбирать исключительно по скору – гоните его мокрыми тряпками.
Результат в Deep Seek V3-0324 получается очень объемным и детализированным. Как графика в современных играх – она может быть довольно топорной по смыслу, но крайне детализированной и высококачественной с точки зрения [6] текстур и моделей.
Из минусов – говорят, новая DeepSeek активно жрёт токены. Мне это проверить не на чем.
Ну и да, размер вырос 671 до 685 миллиардов параметров. Но имхо, основная ценность DeepSeek не в его жирноте, а в том, как гениальные программисты умудрились мастерски оптимизировать техстек. Тренировка изначального DeepSeek-V3 могла стоить всего 5.576 миллионов баксов – из предположения, что аренда GPU H800 стоит около $2 в час. Если это действительно так, то они смогут выкатывать такие обновления регулярно и открыто выкладывать под лицензией MIT.
То есть, это не последняя новость в категории “никогда не было, и вот опять”. Посмотрим, чем ответит им Tencent.
Telegram: @1red2black [7]
Автор: olegchir
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13546
URLs in this post:
[1] математике: http://www.braintools.ru/article/7620
[2] на OpenRouter: https://openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free
[3] ченжлог: https://www.reddit.com/r/DeepSeek/comments/1jj9l6j/deepseek_v3_0324_changelog/?rdt=38621
[4] здесь: https://2308603.playcode.io/
[5] здесь: https://playcode.io/2308603
[6] зрения: http://www.braintools.ru/article/6238
[7] @1red2black: https://t.me/tg_1red2black
[8] Источник: https://habr.com/ru/companies/bar/articles/894366/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894366
Нажмите здесь для печати.