Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге ^[1], что создал новый сложный тест для измерения общего интеллекта ^[2] ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.

Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize ^[3]. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.

Тесты ARC‑AGI состоят из задач, похожих на головоломки, в которых ИИ должен распознавать визуальные паттерны в наборе квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался.

Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей.

Пример вопроса из Arc-AGI-2. — Пример вопроса из Arc‑AGI-2.

В посте на X ^[4] Шолле заявил, что ARC‑AGI-2 лучше измеряет реальный интеллект модели ИИ, чем первая версия теста, ARC‑AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась.

Шолле сказал, что, в отличие от ARC‑AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — большие вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это был серьёзный недостаток ARC‑AGI-1. ^[5]

Чтобы устранить недостатки первого теста, в ARC‑AGI-2 вводится новая метрика: эффективность. Она также требует, чтобы модели интерпретировали закономерности на лету, а не полагались на запоминание ^[6].

«Интеллект определяется не только способностью решать задачи или набирать высокие баллы, — написал соучредитель Arc Prize Foundation Грег Камрадт в посте в блоге ^[1]. — Эффективность, с которой эти способности приобретаются и используются, является важнейшим определяющим компонентом. Основной вопрос, который задаётся, заключается не только в том, „может ли ИИ приобрести навык для решения задачи?“, но и в том, „с какой эффективностью или затратами?“»

ARC‑AGI-1 оставался непобедимым в течение примерно пяти лет, до декабря 2024 года, когда компания OpenAI выпустила свою продвинутую модель логического мышления o3 ^[7], которая превзошла все остальные модели ИИ и сравнялась с человеком по результатам тестирования. Однако, как отметили в то время, повышение производительности o3 по сравнению с ARC‑AGI-1 сопровождалось высокой ценой ^[8].

Версия модели o3 от OpenAI — o3 (low), которая первой достигла новых высот на ARC‑AGI-1, набрав 75,7% баллов в тесте, на ARC‑AGI-2 набрала жалкие 4% баллов, используя вычислительные мощности стоимостью 200 долларов за задачу.

Сравнение производительности модели Frontier AI на ARC-AGI-1 и ARC-AGI-2. — Сравнение производительности модели Frontier AI на ARC‑AGI-1 и ARC‑AGI-2.

Появление ARC‑AGI-2 происходит в то время, когда многие представители технологической отрасли призывают к созданию новых несыгранных эталонов для измерения прогресса в области ИИ. Соучредитель Hugging Face Томас Вольф недавно рассказал TechCrunch, что в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого AGI ^[9], включая креативность.

Наряду с новым эталоном Arc Prize Foundation объявил о конкурсе Arc Prize 2025 ^[10], в рамках которого разработчики должны достичь 85-процентной точности в тесте ARC‑AGI-2, потратив всего 0,42 доллара на задачу.

Источник ^[11]

Автор: mefdayy

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13510

URLs in this post:

[1] блоге: https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

[2] интеллекта: http://www.braintools.ru/article/7605

[3] рейтингу Arc Prize: https://arcprize.org/leaderboard

[4] посте на X: https://x.com/fchollet/status/1904265979192086882

[5] это был серьёзный недостаток ARC‑AGI-1.: https://techcrunch.com/2024/12/09/a-test-for-agi-is-closer-to-being-solved-but-it-may-be-flawed/

[6] запоминание: http://www.braintools.ru/article/722

[7] продвинутую модель логического мышления o3: https://techcrunch.com/2024/12/20/openai-announces-new-o3-model/

[8] повышение производительности o3 по сравнению с ARC‑AGI-1 сопровождалось высокой ценой: https://techcrunch.com/2024/12/23/openais-o3-suggests-ai-models-are-scaling-in-new-ways-but-so-are-the-costs/

[9] в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого AGI: https://techcrunch.com/2025/03/19/the-ai-leaders-bringing-the-agi-debate-down-to-earth/

[10] конкурсе Arc Prize 2025: https://arcprize.org/competition

[11] Источник: https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/

[12] Источник: https://habr.com/ru/companies/bothub/news/894060/?utm_source=habrahabr&utm_medium=rss&utm_campaign=894060

Нажмите здесь для печати.