Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ. LM Arena.. LM Arena. maverick.. LM Arena. maverick. meta.. LM Arena. maverick. meta. scout.. LM Arena. maverick. meta. scout. Блог компании BotHub.. LM Arena. maverick. meta. scout. Блог компании BotHub. ИИ.. LM Arena. maverick. meta. scout. Блог компании BotHub. ИИ. ии и машинное обучение.. LM Arena. maverick. meta. scout. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.

В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.

Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ - 1

Исполнительный директор Meta по генеративному искусственному интеллекту Ахмад Аль-Дале написал в посте на X, что это «просто неправда», что Meta обучала свои модели Llama 4 Maverick и Llama 4 Scout на «тестовых наборах». В тестах ИИ тестовые наборы — это наборы данных, которые используются для оценки производительности модели после обучения. Обучение на тестовом наборе может привести к завышению результатов теста модели, из-за чего она будет казаться более способной, чем на самом деле.

На выходных в X и Reddit начали распространяться неподтверждённые слухи о том, что Meta искусственно завысила результаты тестов своих новых моделей. Судя по всему, слухи возникли из-за поста в китайской социальной сети, в котором пользователь заявил, что уволился из Meta в знак протеста против методов проведения тестов.

Сообщения о том, что Maverick и Scout выполняют определенные задания, подогрели слухи, как и решение Meta использовать экспериментальную, неизданную версию Maverick для достижения лучших результатов в бенчмарке LM Arena. Исследователи X заметили разительные различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena.

Аль-Дале признал, что некоторые пользователи видят «разное качество» Maverick и Scout у разных поставщиков облачных услуг, у которых размещены модели.

«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что для настройки всех общедоступных реализаций потребуется несколько дней, — сказал Аль-Дале. — Мы продолжим работать над исправлением ошибок и привлечением партнёров».

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Автор: mefdayy

Источник