- BrainTools - https://www.braintools.ru -
В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.
Исполнительный директор Meta по генеративному искусственному интеллекту [1] Ахмад Аль-Дале написал в посте на X [2], что это «просто неправда», что Meta обучала свои модели Llama 4 Maverick и Llama 4 Scout [3] на «тестовых наборах». В тестах ИИ тестовые наборы — это наборы данных, которые используются для оценки производительности модели после обучения [4]. Обучение на тестовом наборе может привести к завышению результатов теста модели, из-за чего она будет казаться более способной, чем на самом деле.
На выходных в X и Reddit начали распространяться неподтверждённые слухи [5] о том, что Meta искусственно завысила результаты тестов своих новых моделей. Судя по всему, слухи возникли из-за поста в китайской социальной сети, в котором пользователь заявил, что уволился из Meta в знак протеста против методов проведения тестов.
Сообщения о том, что Maverick и Scout выполняют [6]определенные задания [7], подогрели слухи, как и решение Meta использовать экспериментальную, неизданную версию Maverick [8] для достижения лучших результатов в бенчмарке LM Arena [9]. Исследователи X заметили разительные [10] различия в поведении [10] общедоступного Maverick по сравнению с моделью, размещенной на LM Arena.
Аль-Дале признал, что некоторые пользователи видят «разное качество» Maverick и Scout у разных поставщиков облачных услуг, у которых размещены модели.
«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что для настройки всех общедоступных реализаций потребуется несколько дней, — сказал Аль-Дале. — Мы продолжим работать над исправлением ошибок и привлечением партнёров».
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник [11]
Автор: mefdayy
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14017
URLs in this post:
[1] интеллекту: http://www.braintools.ru/article/7605
[2] написал в посте на X: https://x.com/Ahmad_Al_Dahle/status/1909302532306092107
[3] модели Llama 4 Maverick и Llama 4 Scout: https://techcrunch.com/2025/04/05/meta-releases-llama-4-a-new-crop-of-flagship-ai-models/
[4] обучения: http://www.braintools.ru/article/5125
[5] неподтверждённые слухи: https://substack.com/@recodechinaai/note/c-106642739?r=5erp
[6] выполняют : https://x.com/zimmskal/status/1908638551048138798
[7] определенные задания: https://x.com/ChaseBrowe32432/status/1908989296163299352
[8] экспериментальную, неизданную версию Maverick: https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
[9] LM Arena: https://techcrunch.com/2024/09/05/the-ai-industry-is-obsessed-with-chatbot-arena-but-it-might-not-be-the-best-benchmark/
[10] заметили разительные: https://x.com/TheXeophon/status/1908900306580074741
[11] Источник: https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/
[12] Источник: https://habr.com/ru/companies/bothub/news/898782/?utm_source=habrahabr&utm_medium=rss&utm_campaign=898782
Нажмите здесь для печати.