- BrainTools - https://www.braintools.ru -
Одна из новых флагманских моделей ИИ [1], выпущенных Meta в субботу, Maverick, занимает второе место на LM Arena [2] — тесте, в котором люди-эксперты сравнивают результаты работы моделей и выбирают ту, которая им больше нравится. Но, похоже, версия Maverick, которую Meta использовала на LM Arena, отличается от версии, широко доступной разработчикам.
Как несколько [3] исследователей [4] искусственного интеллекта [5] отметили в X, Meta в своём объявлении указала, что Maverick на LM Arena — это «экспериментальная версия чата». На официальном сайте Llama [6], тем временем, указано, что тестирование LM Arena от Meta проводилось с использованием «Llama 4 Maverick, оптимизированного для общения».
Как уже писали ранее [7], по разным причинам LM Arena никогда не была самым надёжным показателем эффективности модели ИИ. Но компании, занимающиеся ИИ, как правило, не настраивали свои модели так, чтобы они лучше справлялись с LM Arena, — по крайней мере, они этого не признавали.
Проблема с адаптацией модели к эталонному тесту, её сокрытием, а затем выпуском «ванильного» варианта той же модели заключается в том, что разработчикам сложно предсказать, насколько хорошо модель будет работать в конкретных условиях. Это также вводит в заблуждение. В идеале эталонный тест, каким бы несовершенным он ни был [8], даёт представление о сильных и слабых сторонах одной модели в целом ряде задач.
Действительно, исследователи из X заметили значительные [9] различия в поведении [10] общедоступной версии Maverick по сравнению с моделью, размещённой на LM Arena. В версии LM Arena, похоже, используется много эмодзи, и ответы даются невероятно пространные.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник [11]
Автор: mefdayy
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13959
URLs in this post:
[1] новых флагманских моделей ИИ: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
[2] занимает второе место на LM Arena: https://lmarena.ai/?leaderboard
[3] несколько: https://x.com/natolambert/status/1908913635373842655
[4] исследователей: https://x.com/suchenzang/status/1908938638869909724
[5] искусственного интеллекта: https://x.com/ZainHasan6/status/1908943306936967597
[6] официальном сайте Llama: http://llama.com/
[7] Как уже писали ранее: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/
[8] каким бы несовершенным он ни был: https://techcrunch.com/2024/03/07/heres-why-most-ai-benchmarks-tell-us-so-little/
[9] заметили значительные: https://x.com/TheXeophon/status/1908900306580074741
[10] различия в поведении: https://x.com/suchenzang/status/1908812055014195521
[11] Источник: https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
[12] Источник: https://habr.com/ru/companies/bothub/news/898226/?utm_source=habrahabr&utm_medium=rss&utm_campaign=898226
Нажмите здесь для печати.