Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM. dllm.. dllm. inception labs.. dllm. inception labs. llm.. dllm. inception labs. llm. mercury.. dllm. inception labs. llm. mercury. генерация кода.. dllm. inception labs. llm. mercury. генерация кода. искусственный интеллект.. dllm. inception labs. llm. mercury. генерация кода. искусственный интеллект. Машинное обучение.
Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM - 1

Текущие большие языковые модели (LLM) являются авторегрессивными, то есть генерируют текст слева направо, по одному токену за раз. Этот процесс по своей природе последовательный — новый токен не может быть сгенерирован, пока не сформирован весь предшествующий текст (потому что он поступает в виде контекста на вход нейросети для генерации следующего токена), а генерация каждого токена требует вычислений в модели с миллиардами параметров.

Компании, работающие над передовыми LLM, делают ставку на дополнительную генерации в процессе подготовки ответа для улучшения логических рассуждений (reasoning) и исправления ошибок, но генерация длинных цепочек рассуждений приводит к резкому росту затрат на вычисления и огромной задержке (минуты).

Чтобы сделать высококачественные AI-решения по-настоящему доступными, необходима смена парадигмы.

Что за dLLM?

Диффузионные модели обеспечивают такую смену. Они работают по принципу “от грубого к детальному”, где результат постепенно улучшается из чистого шума за несколько шагов “разшумления”, как показано в видео выше.

Поскольку диффузионные модели не ограничены учётом только предыдущего вывода, они лучше справляются с логическими рассуждениями и структурированием ответов. А благодаря способности к итеративному улучшению результатов, они могут исправлять ошибки и галлюцинации. По этим причинам диффузия лежит в основе ведущих AI-решений для генерации видео, изображений и аудио, таких как Sora, Midjourney и Riffusion. Однако до сих пор применение диффузионных моделей к дискретным данным, таким как текст и код, оставалось неуспешным. До сегодняшнего дня.

Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM - 2

Mercury Coder – первая публично-доступная dLLM

Сегодня был представлен Mercury Coder — первая публично доступная диффузионная языковая модель (dLLM), которая значительно расширяет возможности искусственного интеллекта. Она работает в 5–10 раз быстрее по сравнению с текущим поколением LLM, обеспечивая высококачественные ответы при низких затратах. Разработка основана на передовых исследованиях основателей проекта, которые стояли у истоков диффузионных моделей для изображений и соавторствовали в ключевых методах генеративного ИИ, таких как Direct Preference Optimization, Flash Attention и Decision Transformers.

В отличие от авторегрессивных моделей, dLLM генерирует ответы не по одному токену, а сразу крупными блоками, последовательно уточняя их. Это позволяет значительно ускорить процесс генерации, сохраняя высокую точность. В основе Mercury Coder лежит Transformer-модель, обученная на огромных объемах данных и способная модифицировать несколько токенов одновременно, что повышает общее качество ответов.

dLLM полностью совместима с традиционными LLM-сценариями, включая RAG, работу с инструментами и агентские системы.

Mercury Coder специально оптимизирован для генерации кода. При тестировании на стандартных бенчмарках он продемонстрировал высокое качество решений, часто превосходя оптимизированные по скорости авторегрессивные модели, такие как GPT-4o Mini и Claude 3.5 Haiku, при этом работая до 10 раз быстрее.

Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM - 3

Отличительной особенностью dLLM является скорость. В то время как даже оптимизированные авторегрессивные модели работают максимум со скоростью 200 токенов в секунду, Mercury Coder на стандартных NVIDIA H100 обрабатывает более 1000 токенов в секунду – прирост в 5 раз. По сравнению с некоторыми передовыми моделями, способными выдавать менее 50 токенов в секунду, ускорение достигает более 20-кратного прироста.

Вышел Mercury Coder: первая модель на принципиально новой архитектуре dLLM, в 10 раз быстрее LLM - 4

Ранее такую пропускную способность LLM могли получить только на специализированном оборудовании, например, Groq, Cerebras и SambaNova. Алгоритмические улучшения независимы от аппаратного ускорения, и на более быстрых чипах эффективность будет ещё выше.

Кроме того, разработчики отдают предпочтение автодополнению кода Mercury по сравнению с существующими моделями. На Copilot Arena Mercury Coder Mini занимает второе место, превосходя по качеству оптимизированные по скорости модели, такие как GPT-4o Mini и Gemini-1.5-Flash, а также более крупные модели вроде GPT-4o, при этом оставаясь самой быстрой – примерно в 4 раза быстрее GPT-4o Mini.

Что это значит для AI-приложений?

В приложениях с жесткими требованиями к задержке компании ранее были вынуждены использовать меньшие и менее мощные модели, чтобы уложиться в ограничения по скорости. Благодаря высокой производительности dLLM, теперь они могут применять более мощные модели, сохраняя исходные требования по скорости и стоимости.

Inception Labs предоставляют доступ к моделям через API, а также поддерживают on-premise развертывание. Новые модели полностью совместимы с существующим оборудованием, датасетами и пайплайнами тонкой настройки (SFT) и RLHF-алайнмента. Поддержка fine-tuning доступна для обоих вариантов развертывания.

Какие следующие планы?

Mercury Coder — это лишь первая модель в серии будущих dLLM от Inception Labs. В настоящее время модель, разработанная для чат-приложений, проходит закрытое бета-тестирование.

Диффузионные языковые модели откроют новые возможности:

  • Улучшенные агентские системы — высокая скорость и эффективность делают их идеальными для автоматизированных приложений, требующих сложного планирования и генерации длинных ответов.

  • Продвинутое логическое мышление — dLLM используют коррекцию ошибок, устраняя галлюцинации и улучшая ответы, при этом генерируя их за секунды, в отличие от авторегрессивных моделей, которым требуются минуты.

  • Контролируемую генерацию — dLLM могут редактировать свой вывод, генерировать токены в любом порядке, что позволяет вставлять текст, адаптировать ответы под безопасность или точно соответствовать заданному формату.

  • Работу на Edge-устройствах — благодаря высокой эффективности, dLLM отлично подходят для ресурсоограниченных сред, таких как смартфоны и ноутбуки.

Заключение

Потестить можно тут. А ещё в твиттере идёт активное обсуждение этой модели, отписались даже Андрей Карпаты и Andrew Ng, почитать полный обзор можно здесь.


P.S. В своём телеграм-канале я как раз заставляю ИИ писать мне код (и видимо теперь потестирую для этого Mercury), обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!

Автор: ElKornacio

Источник

Рейтинг@Mail.ru
Rambler's Top100