В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.
Новые независимые оценки показывают, что последние модели Meta Llama 4 — Maverick и Scout — хорошо справляются со стандартными тестами, но испытывают трудности со сложными задачами с длительным контекстом.Согласно совокупному «индексу интеллекта» от Artificial Analysis
Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух. 10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.Но вот прошла пара дней, и Царь оказался ненастоящий.
Одна из новых флагманских моделей ИИ, выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.