Llama 4 Maverick и Scout: результаты тестирования моделей Meta*. maverick.. maverick. Meta Llama 4.. maverick. Meta Llama 4. scout.. maverick. Meta Llama 4. scout. Блог компании BotHub.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ. ии и машинное обучение.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. Машинное обучение.. maverick. Meta Llama 4. scout. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. искусственный интеллект. Машинное обучение. тесты моделей ии.

Новые независимые оценки показывают, что последние модели Meta Llama 4 — Maverick и Scout — хорошо справляются со стандартными тестами, но испытывают трудности со сложными задачами с длительным контекстом.

Llama 4 Maverick и Scout: результаты тестирования моделей Meta* - 1

Согласно совокупному «индексу интеллекта» от Artificial Analysis, Llama 4 Maverick от Meta набрала 49 баллов, а Scout — 36. Это ставит Maverick выше Claude 3.7 Sonnet, но ниже Deepseek V3 0324. Scout работает наравне с GPT-4o-mini и превосходит Claude 3.5 Sonnet и Mistral Small 3.1.

Обе модели продемонстрировали стабильные результаты в общих логических, программистских и математических задачах, не показав существенных недостатков в какой-либо конкретной области.

 Индекс интеллекта Artificial Analysis показывает относительную силу ведущих моделей ИИ в семи стандартизированных тестах. Deepseek лидирует с 53 баллами, GPT-4o и Llama-4-Maverick следуют за ним с 50 и 49 баллами соответственно. 

Индекс интеллекта Artificial Analysis показывает относительную силу ведущих моделей ИИ в семи стандартизированных тестах. Deepseek лидирует с 53 баллами, GPT-4o и Llama-4-Maverick следуют за ним с 50 и 49 баллами соответственно. 

Архитектура Maverick демонстрирует некоторую эффективность, используя лишь половину активных параметров Deepseek V3 (17 миллиардов против 37 миллиардов) и около 60 процентов от общего числа параметров (402 миллиарда против 671 миллиарда). В отличие от Deepseek V3, который обрабатывает только текст, Maverick может обрабатывать и изображения.

По данным искусственного анализа, средняя цена Maverick составляет 0,24 доллара за миллион входных/выходных токенов, а Scout — 0,15 доллара за миллион. Эти цены ниже даже у бюджетного Deepseek-V3 и в десять раз ниже, чем у GPT-4 от OpenAI.

Текущие цены на модели ИИ демонстрируют значительные различия между затратами на вход и выход, при этом новые модели Llama являются одними из самых доступных вариантов.

Текущие цены на модели ИИ демонстрируют значительные различия между затратами на вход и выход, при этом новые модели Llama являются одними из самых доступных вариантов.

Запуск Llama 4 не обошёлся без споров. Несколько тестировщиков сообщают о значительных различиях в производительности между LMArena — бенчмарком, который активно продвигает Meta, — и производительностью модели на других платформах, даже при использовании рекомендуемой Meta системной подсказки.

Meta подтвердила, что для этого теста использовалась «экспериментальная версия чата» Maverick, и предложила возможную оптимизацию для людей, которые оценивают результаты, с помощью подробных, хорошо структурированных ответов с чётким форматированием.

Фактически, когда в LMArena активируется «Style Control» — метод, который отделяет качество контента от стиля презентации, — Llama 4 опускается со второго на пятое место. Эта система пытается изолировать качество контента, учитывая такие факторы, как длина ответа и форматирование. Стоит отметить, что другие разработчики моделей искусственного интеллекта, вероятно, используют аналогичные стратегии оптимизации тестов.

Llama 4 Maverick занимает 2-е место без Style Control, но опускается на 5-е место при включенном Style Control. 

Llama 4 Maverick занимает 2-е место без Style Control, но опускается на 5-е место при включенном Style Control. 

Наиболее серьёзные проблемы выявились в тестах, проведённых Fiction.live, которые оценивают понимание сложных текстов с помощью многоуровневых повествований.

Fiction.live утверждает, что их тесты лучше отражают реальные сценарии использования, измеряя фактическое понимание, а не просто возможности поиска. Модели должны отслеживать временные изменения, делать логические прогнозы на основе имеющейся информации и различать знания читателя и знания персонажа.

Производительность Llama 4 разочаровала в этих сложных тестах. Maverick не показал улучшений по сравнению с Llama 3.3 70B, а Scout показал «просто отвратительные» результаты.

Контраст разителен: в то время как Gemini 2.5 Pro сохраняет точность 90,6% при 120 000 жетонов, Maverick достигает лишь 28,1%, а Scout — 15,6%.

Тест на понимание длинного контекста в Fiction.Live показывает значительные различия в производительности между моделями.

Тест на понимание длинного контекста в Fiction.Live показывает значительные различия в производительности между моделями.

Эти результаты ставят под сомнение заявления Meta о возможностях работы с длинным контекстом. Scout, который, как утверждается, может обрабатывать 10 миллионов токенов, с трудом справляется всего с 128 000. Maverick также не может стабильно обрабатывать документы с 128 000 токенов, но заявляет о контексте в один миллион токенов.

Исследования всё чаще показывают, что большие контекстные окна дают меньше преимуществ, чем ожидалось, поскольку моделям сложно оценивать всю доступную информацию одинаково. Работа с небольшими контекстными окнами размером до 128 КБ часто оказывается более эффективной, и пользователи обычно добиваются ещё лучших результатов, разбивая большие документы на главы, а не обрабатывая их все сразу.

В ответ на неоднозначные отзывы глава Meta по генеративному искусственному интеллекту Ахмад Аль-Дале объясняет, что ранние несоответствия отражают временные проблемы с реализацией, а не ограничения самих моделей.

«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что потребуется несколько дней, чтобы все общедоступные реализации были настроены», — пишет Аль-Дале. Он категорически отрицает обвинения в обучении тестового набора данных, заявляя, что «это просто неправда, и мы бы никогда так не поступили». «По нашему мнению, нестабильное качество, которое наблюдают пользователи, связано с необходимостью стабилизировать реализацию», — говорит Аль-Дале, подчёркивая, что различные сервисы всё ещё оптимизируют развёртывание Llama 4.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Автор: mefdayy

Источник

Рейтинг@Mail.ru
Rambler's Top100