DeepSeek V3-0324. Что изменилось?. ai.. ai. deepseek.. ai. deepseek. deepseek v3.. ai. deepseek. deepseek v3. llm.. ai. deepseek. deepseek v3. llm. ml.. ai. deepseek. deepseek v3. llm. ml. Блог компании Anarchic.. ai. deepseek. deepseek v3. llm. ml. Блог компании Anarchic. Машинное обучение.. ai. deepseek. deepseek v3. llm. ml. Блог компании Anarchic. Машинное обучение. Программирование.

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?

Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии – она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.

Попробовать самостоятельно можно на OpenRouter. Дело лучше тысячи слов.

Системкарда еще нет. Все, что есть – отзывы благодарных пользователей в Twiter и Reddit. Также есть куцый ченжлог.

Я провел некое журналистское расследование и выяснил следующее.

Во-первых, OpenRouter безбожно тормозит и залипает при генерации сколько-то большого ответа. Пока что-то сгенерится, можно натурально скипятить чай. Но что вы хотели за халяву?

Во-вторых, стандартные тесты типа “напиши Сапёра” действительно выдают более длинный, детализированный и продуманный код, чем у предыдущей версии, или у актуальной Claude 3.7.

Она с первой же итерации учла все правила игры в Сапёр (типа отметки мин правой кнопкой мыши и таймера), про которые Claude не вспомнила без подсказки. У Claude интерфейс ломался от указания большого размера поля (это было не предусмотрено).

У DeepSeek размер поля сразу регулируется выпадашкой “сложность игры”, а сам интерфейс адаптируется под количество ячеек и не ломается, потому что выполнен с фиксированной шириной и резиной внутри. DeepSeek даже добавила даже красивые анимации для выигрыша и проигрыша.

Поиграть в Сапёра можно здесь. Нажмите Skip Intro (это реклама от площадки Playcode), и играйте.

Посмотреть код Сапйра можно здесь. Заметьте, что это код первой итерации. Я ничего не подсказывал и не добавлял никаких других инструкций, кроме просьбы сделать Сапёра с красивым современным интерфейсом.

По субъективным ощущениям, сейчас это одна из лучших нерассуждающих моделек. Она не начала делать что-то из ряда вон выходящее. В смысле “воображения”, по моим ощущениям, Claude намного лучше в задачах про “реальный мир”, а ChatGPT – сильно лучше их обоих в задачах про код.

Бенчмарки, к сожалению, практически никогда не передают этих самых личных ощущений. Личные ощущения почему-то оказываются лучше и точнее. Если кто-то попробует продать вам идею, что нейронку нужно выбирать исключительно по скору – гоните его мокрыми тряпками.

Результат в Deep Seek V3-0324 получается очень объемным и детализированным. Как графика в современных играх – она может быть довольно топорной по смыслу, но крайне детализированной и высококачественной с точки зрения текстур и моделей.

Из минусов – говорят, новая DeepSeek активно жрёт токены. Мне это проверить не на чем.

Ну и да, размер вырос 671 до 685 миллиардов параметров. Но имхо, основная ценность DeepSeek не в его жирноте, а в том, как гениальные программисты умудрились мастерски оптимизировать техстек. Тренировка изначального DeepSeek-V3 могла стоить всего 5.576 миллионов баксов – из предположения, что аренда GPU H800 стоит около $2 в час. Если это действительно так, то они смогут выкатывать такие обновления регулярно и открыто выкладывать под лицензией MIT.

То есть, это не последняя новость в категории “никогда не было, и вот опять”. Посмотрим, чем ответит им Tencent.

Telegram: @1red2black

Автор: olegchir

Источник