Maverick от Meta* на LM Arena: различия между экспериментальной версией и версией для разработчиков

Одна из новых флагманских моделей ИИ ^[1], выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena ^[2] — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.

Как несколько ^[3] исследователей ^[4] искусственного интеллекта ^[5] отметили в X, Meta в своём объявлении указала, что Maverick на LM Arena — это «экспериментальная версия чата». На официальном сайте Llama ^[6], тем временем, указано, что тестирование LM Arena от Meta проводилось с использованием «Llama 4 Maverick, оптимизированного для общения».

Как уже писали ранее ^[7], по разным причинам LM Arena никогда не была самым надёжным показателем эффективности модели ИИ. Но компании, занимающиеся ИИ, как правило, не настраивали свои модели так, чтобы они лучше справлялись с LM Arena, — по крайней мере, они этого не признавали.

Проблема с адаптацией модели к эталонному тесту, её сокрытием, а затем выпуском «ванильного» варианта той же модели заключается в том, что разработчикам сложно предсказать, насколько хорошо модель будет работать в конкретных условиях. Это также вводит в заблуждение. В идеале эталонный тест, каким бы несовершенным он ни был ^[8], даёт представление о сильных и слабых сторонах одной модели в целом ряде задач.

Действительно, исследователи из X заметили значительные ^[9] различия в поведении ^[10] общедоступной версии Maverick по сравнению с моделью, размещённой на LM Arena. В версии LM Arena, похоже, используется много эмодзи, и ответы даются невероятно пространные.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник ^[11]

Автор: mefdayy

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13959

URLs in this post:

[1] новых флагманских моделей ИИ: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/

[2] занимает второе место на LM Arena: https://lmarena.ai/?leaderboard

[3] несколько: https://x.com/natolambert/status/1908913635373842655

[4] исследователей: https://x.com/suchenzang/status/1908938638869909724

[5] искусственного интеллекта: https://x.com/ZainHasan6/status/1908943306936967597

[6] официальном сайте Llama: http://llama.com/

[7] Как уже писали ранее: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/

[8] каким бы несовершенным он ни был: https://techcrunch.com/2024/03/07/heres-why-most-ai-benchmarks-tell-us-so-little/

[9] заметили значительные: https://x.com/TheXeophon/status/1908900306580074741

[10] различия в поведении: https://x.com/suchenzang/status/1908812055014195521

[11] Источник: https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

[12] Источник: https://habr.com/ru/companies/bothub/news/898226/?utm_source=habrahabr&utm_medium=rss&utm_campaign=898226

Нажмите здесь для печати.