Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ

В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.

Исполнительный директор Meta по генеративному искусственному интеллекту ^[1] Ахмад Аль-Дале написал в посте на X ^[2], что это «просто неправда», что Meta обучала свои модели Llama 4 Maverick и Llama 4 Scout ^[3] на «тестовых наборах». В тестах ИИ тестовые наборы — это наборы данных, которые используются для оценки производительности модели после обучения ^[4]. Обучение на тестовом наборе может привести к завышению результатов теста модели, из-за чего она будет казаться более способной, чем на самом деле.

На выходных в X и Reddit начали распространяться неподтверждённые слухи ^[5] о том, что Meta искусственно завысила результаты тестов своих новых моделей. Судя по всему, слухи возникли из-за поста в китайской социальной сети, в котором пользователь заявил, что уволился из Meta в знак протеста против методов проведения тестов.

Сообщения о том, что Maverick и Scout выполняют ^[6]определенные задания ^[7], подогрели слухи, как и решение Meta использовать экспериментальную, неизданную версию Maverick ^[8] для достижения лучших результатов в бенчмарке LM Arena ^[9]. Исследователи X заметили разительные ^[10] различия в поведении ^[10] общедоступного Maverick по сравнению с моделью, размещенной на LM Arena.

Аль-Дале признал, что некоторые пользователи видят «разное качество» Maverick и Scout у разных поставщиков облачных услуг, у которых размещены модели.

«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что для настройки всех общедоступных реализаций потребуется несколько дней, — сказал Аль-Дале. — Мы продолжим работать над исправлением ошибок и привлечением партнёров».

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник ^[11]

Автор: mefdayy

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14017

URLs in this post:

[1] интеллекту: http://www.braintools.ru/article/7605

[2] написал в посте на X: https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

[3] модели Llama 4 Maverick и Llama 4 Scout: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/

[4] обучения: http://www.braintools.ru/article/5125

[5] неподтверждённые слухи: https://substack.com/@recodechinaai/note/c-106642739?r=5erp

[6] выполняют : https://x.com/zimmskal/status/1908638551048138798

[7] определенные задания: https://x.com/ChaseBrowe32432/status/1908989296163299352

[8] экспериментальную, неизданную версию Maverick: https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

[9] LM Arena: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/

[10] заметили разительные: https://x.com/TheXeophon/status/1908900306580074741

[11] Источник: https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

[12] Источник: https://habr.com/ru/companies/bothub/news/898782/?utm_source=habrahabr&utm_medium=rss&utm_campaign=898782

Нажмите здесь для печати.