Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.
P.S кратко написал об этом в Телеграм канале, ссылка на пост
Ключевые особенности новых моделей
1. Llama 4 Scout – модель с 17 млрд активных параметров и 16 экспертами (109 млрд параметров в общей сложности). Является лучшей мультимодальной моделью в своём классе, превосходящей Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1. Главная особенность – рекордное контекстное окно в 10 млн токенов и возможность работы на одной GPU H100 (с квантизацией Int4).
2. Llama 4 Maverick – мощная модель с 17 млрд активных параметров и 128 экспертами (400 млрд параметров в общей сложности). По заявлению Meta, превосходит GPT-4o и Gemini 2.0 Flash по широкому спектру бенчмарков, при этом показывая результаты, сравнимые с DeepSeek v3 в задачах рассуждения и кодирования, но при вдвое меньшем количестве активных параметров. Экспериментальная версия для чата достигла ELO 1417 на LMArena.
3. Llama 4 Behemoth – учительская модель с 288 млрд активных параметров, 16 экспертами и почти 2 триллионами общих параметров. По утверждению Meta, превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro по нескольким STEM-бенчмаркам. Эта модель еще находится в процессе обучения и не выпущена публично.
Технические инновации

Архитектура Mixture of Experts (MoE)
Впервые в линейке Llama используется архитектура MoE, где для обработки каждого токена активируется лишь часть параметров модели. Это значительно повышает эффективность как обучения, так и инференса.
Например, в Llama 4 Maverick каждый токен обрабатывается общим экспертом и одним из 128 маршрутизируемых экспертов, что позволяет снизить вычислительные затраты и латентность при сохранении высокого качества.
Нативная мультимодальность
Модели используют раннее слияние (early fusion) для интеграции текстовых и визуальных токенов в единую модельную архитектуру. Это позволяет совместно предобучать модель на больших объемах немаркированных текстовых, изображений и видеоданных.
Улучшенный визуальный энкодер основан на MetaCLIP, но обучен отдельно в сочетании с замороженной моделью Llama для лучшей адаптации к специфике языковой модели.
Экстремально длинный контекст
Llama 4 Scout поддерживает беспрецедентно длинный контекст в 10 миллионов токенов благодаря специальной архитектуре iRoPE (interleaved attention layers без позиционных эмбеддингов) и масштабированию температуры внимания во время инференса.
Новые методики обучения
-
MetaP – техника, позволяющая надежно устанавливать критические гиперпараметры модели, такие как скорость обучения для каждого слоя и масштабы инициализации.
-
FP8-precision – обучение с использованием 8-битной точности с плавающей запятой без потери качества. При обучении Llama 4 Behemoth достигнута производительность 390 TFLOPs/GPU с использованием 32K GPU.
-
Кодистилляция – использование Llama 4 Behemoth в качестве учителя для обучения меньших моделей с новой функцией потерь, которая динамически взвешивает мягкие и жесткие цели в процессе обучения.
-
Полностью асинхронный онлайн-RL – разработана новая инфраструктура для масштабного обучения с подкреплением, обеспечивающая 10-кратное улучшение эффективности обучения по сравнению с предыдущими поколениями.
Бенчмарки и стоимость



Стоимость:
-
$0.19-$0.49 за 1M токенов (в зависимости от настроек) против $4.38 у GPT-4o, про Sonnet 3.7 даже писать не стали
Обработка изображений:
-
MMMU: 73.4 (против 71.7 у Gemini 2.0 Flash и 69.1 у GPT-4o)
-
MathVista: 73.7 (против 73.1 у Gemini и 63.8 у GPT-4o)
-
ChartQA: 90.0 (против 88.3 у Gemini и 85.7 у GPT-4o)
-
DocVQA: 94.4 (против 92.8 у GPT-4o)
Кодинг:
-
LiveCodeBench — 43.4 (DeepSeek v3.1 лидирует с 45.8/49.2)
Рассуждение и знания:
-
MMLU Pro: 80.5 (против 77.6 у Gemini, DeepSeek лидирует с 81.2)
-
GPQA Diamond: 69.8 (против 60.1 у Gemini, 68.4 у DeepSeek и 53.6 у GPT-4o)
Многоязычность:
-
Multilingual MMLU — 84.6 (против 81.5 у GPT-4o)
Длинный контекст:
-
MTOB (полная книга) — 50.8/46.7 (против 45.5/39.6 у Gemini)
Llama 4 Behemoth vs флагманы
Учительская модель Behemoth показывает выдающиеся результаты:
-
LiveCodeBench: 49.4 (против 36.0 у Gemini 2.0 Pro)
-
MATH-500: 95.0 (против 82.2 у Claude Sonnet 3.7 и 91.8 у Gemini 2.0 Pro)
-
MMLU Pro: 82.2 (против 79.1 у Gemini 2.0 Pro)
-
GPQA Diamond: 73.7 (против 71.4 у GPT-4.5, 68.0 у Claude и 64.7 у Gemini)
-
Multilingual MMLU: 85.8 (против 85.1 у GPT-4.5 и 83.2 у Claude)
-
MMMU (понимание изображений): 76.1 (против 74.4 у GPT-4.5, 72.7 у Gemini и 71.8 у Claude)
Доступность и применение
Модели Llama 4 Scout и Llama 4 Maverick уже доступны для загрузки на llama.com и Hugging Face. Они также используются в Meta AI в WhatsApp, Messenger, Instagram Direct и на веб-сайте Meta.AI.
Для разработчиков, предприятий и исследователей эти модели представляют золотую середину между высокой производительностью и доступностью по ресурсам, обеспечивая передовые возможности по мультимодальному пониманию, рассуждению и кодированию при значительно более низкой стоимости использования по сравнению с проприетарными решениями.
Безопасность и этика
Meta уделила значительное внимание вопросам безопасности и снижения предвзятости в новых моделях (якобы):
-
Разработаны открытые инструменты безопасности: Llama Guard, Prompt Guard и CyberSecEval
-
Внедрен новый метод тестирования – Generative Offensive Agent Testing (GOAT)
-
Значительно снижен уровень отказов модели отвечать на вопросы о спорных политических и социальных темах (с 7% в Llama 3.3 до менее 2%)
-
Уменьшена политическая предвзятость модели до уровня, сравнимого с Grok (вдвое ниже, чем в Llama 3.3)
Автор: g_coll
- Запись добавлена: 05.04.2025 в 21:37
- Оставлено в
Советуем прочесть:
- Mistral запускает улучшенную маломерную мультимодальную модель Small 3.1
- Семейство моделей Gemini 2.0 от Google пополнилось Flash-Lite и Pro
- Google представляет новое поколение моделей рассуждений Gemini 2.5
- Как в РФ получить доступ к 5 бесплатным и 25 платным нейросетям LLM без VPN и с оплатой за рубли?
- Hugging Face выпускает небольшую языковую модель, которая в большинстве случаев превосходит Qwen и Llama
- Perplexity AI запускает новую сверхбыструю поисковую модель с искусственным интеллектом
- Вышла YuE — открытая модель машинного обучения для генерации музыки
- Следующие модели Llama от Meta* могут иметь улучшенные голосовые функции
- Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3
- Контекстное окно в 200 тыс. токенов Claude 2.1 подвергли проверке