Новые независимые оценки показывают, что последние модели Meta Llama 4 — Maverick и Scout — хорошо справляются со стандартными тестами, но испытывают трудности со сложными задачами с длительным контекстом.

Согласно совокупному «индексу интеллекта» от Artificial Analysis, Llama 4 Maverick от Meta набрала 49 баллов, а Scout — 36. Это ставит Maverick выше Claude 3.7 Sonnet, но ниже Deepseek V3 0324. Scout работает наравне с GPT-4o-mini и превосходит Claude 3.5 Sonnet и Mistral Small 3.1.
Обе модели продемонстрировали стабильные результаты в общих логических, программистских и математических задачах, не показав существенных недостатков в какой-либо конкретной области.

Архитектура Maverick демонстрирует некоторую эффективность, используя лишь половину активных параметров Deepseek V3 (17 миллиардов против 37 миллиардов) и около 60 процентов от общего числа параметров (402 миллиарда против 671 миллиарда). В отличие от Deepseek V3, который обрабатывает только текст, Maverick может обрабатывать и изображения.
По данным искусственного анализа, средняя цена Maverick составляет 0,24 доллара за миллион входных/выходных токенов, а Scout — 0,15 доллара за миллион. Эти цены ниже даже у бюджетного Deepseek-V3 и в десять раз ниже, чем у GPT-4 от OpenAI.

Запуск Llama 4 не обошёлся без споров. Несколько тестировщиков сообщают о значительных различиях в производительности между LMArena — бенчмарком, который активно продвигает Meta, — и производительностью модели на других платформах, даже при использовании рекомендуемой Meta системной подсказки.
Meta подтвердила, что для этого теста использовалась «экспериментальная версия чата» Maverick, и предложила возможную оптимизацию для людей, которые оценивают результаты, с помощью подробных, хорошо структурированных ответов с чётким форматированием.
Фактически, когда в LMArena активируется «Style Control» — метод, который отделяет качество контента от стиля презентации, — Llama 4 опускается со второго на пятое место. Эта система пытается изолировать качество контента, учитывая такие факторы, как длина ответа и форматирование. Стоит отметить, что другие разработчики моделей искусственного интеллекта, вероятно, используют аналогичные стратегии оптимизации тестов.

Наиболее серьёзные проблемы выявились в тестах, проведённых Fiction.live, которые оценивают понимание сложных текстов с помощью многоуровневых повествований.
Fiction.live утверждает, что их тесты лучше отражают реальные сценарии использования, измеряя фактическое понимание, а не просто возможности поиска. Модели должны отслеживать временные изменения, делать логические прогнозы на основе имеющейся информации и различать знания читателя и знания персонажа.
Производительность Llama 4 разочаровала в этих сложных тестах. Maverick не показал улучшений по сравнению с Llama 3.3 70B, а Scout показал «просто отвратительные» результаты.
Контраст разителен: в то время как Gemini 2.5 Pro сохраняет точность 90,6% при 120 000 жетонов, Maverick достигает лишь 28,1%, а Scout — 15,6%.

Эти результаты ставят под сомнение заявления Meta о возможностях работы с длинным контекстом. Scout, который, как утверждается, может обрабатывать 10 миллионов токенов, с трудом справляется всего с 128 000. Maverick также не может стабильно обрабатывать документы с 128 000 токенов, но заявляет о контексте в один миллион токенов.
Исследования всё чаще показывают, что большие контекстные окна дают меньше преимуществ, чем ожидалось, поскольку моделям сложно оценивать всю доступную информацию одинаково. Работа с небольшими контекстными окнами размером до 128 КБ часто оказывается более эффективной, и пользователи обычно добиваются ещё лучших результатов, разбивая большие документы на главы, а не обрабатывая их все сразу.
В ответ на неоднозначные отзывы глава Meta по генеративному искусственному интеллекту Ахмад Аль-Дале объясняет, что ранние несоответствия отражают временные проблемы с реализацией, а не ограничения самих моделей.
«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что потребуется несколько дней, чтобы все общедоступные реализации были настроены», — пишет Аль-Дале. Он категорически отрицает обвинения в обучении тестового набора данных, заявляя, что «это просто неправда, и мы бы никогда так не поступили». «По нашему мнению, нестабильное качество, которое наблюдают пользователи, связано с необходимостью стабилизировать реализацию», — говорит Аль-Дале, подчёркивая, что различные сервисы всё ещё оптимизируют развёртывание Llama 4.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Автор: mefdayy
- Запись добавлена: 08.04.2025 в 11:37
- Оставлено в
Советуем прочесть:
- Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ
- Результаты Llama 4 от Meta* в бенчмарках
- Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков
- Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)
- Meta* выпустила Llama 4, новую серию флагманских моделей AI
- Следующие модели Llama от Meta* могут иметь улучшенные голосовые функции
- Марк Цукерберг говорит, что модели Llama от Meta* достигли 1 млрд загрузок
- Марк Цукерберг анонсирует Llama 4 и стратегию Meta* в области AI на 2025 год
- Дебаты по поводу бенчмаркинга ИИ достигли Pokémon
- Meta* в центре судебного спора во Франции из-за нарушения авторских прав на ИИ