Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ. agi.. agi. arc agi 2.. agi. arc agi 2. Arc Prize Foundation.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. Интеллект.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. Интеллект. искусственный интеллект.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. Интеллект. искусственный интеллект. Машинное обучение.. agi. arc agi 2. Arc Prize Foundation. Блог компании BotHub. ИИ. ии и машинное обучение. ии-модели. Интеллект. искусственный интеллект. Машинное обучение. тесты.

Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.

Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ - 1

Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.

Тесты ARC‑AGI состоят из задач, похожих на головоломки, в которых ИИ должен распознавать визуальные паттерны в наборе квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался.

Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей.

Пример вопроса из Arc-AGI-2.

Пример вопроса из Arc‑AGI-2.

В посте на X Шолле заявил, что ARC‑AGI-2 лучше измеряет реальный интеллект модели ИИ, чем первая версия теста, ARC‑AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась.

Шолле сказал, что, в отличие от ARC‑AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — большие вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это был серьёзный недостаток ARC‑AGI-1.

Чтобы устранить недостатки первого теста, в ARC‑AGI-2 вводится новая метрика: эффективность. Она также требует, чтобы модели интерпретировали закономерности на лету, а не полагались на запоминание.

«Интеллект определяется не только способностью решать задачи или набирать высокие баллы, — написал соучредитель Arc Prize Foundation Грег Камрадт в посте в блоге. — Эффективность, с которой эти способности приобретаются и используются, является важнейшим определяющим компонентом. Основной вопрос, который задаётся, заключается не только в том, „может ли ИИ приобрести навык для решения задачи?“, но и в том, „с какой эффективностью или затратами?“»

ARC‑AGI-1 оставался непобедимым в течение примерно пяти лет, до декабря 2024 года, когда компания OpenAI выпустила свою продвинутую модель логического мышления o3, которая превзошла все остальные модели ИИ и сравнялась с человеком по результатам тестирования. Однако, как отметили в то время, повышение производительности o3 по сравнению с ARC‑AGI-1 сопровождалось высокой ценой.

Версия модели o3 от OpenAI — o3 (low), которая первой достигла новых высот на ARC‑AGI-1, набрав 75,7% баллов в тесте, на ARC‑AGI-2 набрала жалкие 4% баллов, используя вычислительные мощности стоимостью 200 долларов за задачу.

Сравнение производительности модели Frontier AI на ARC-AGI-1 и ARC-AGI-2.

Сравнение производительности модели Frontier AI на ARC‑AGI-1 и ARC‑AGI-2.

Появление ARC‑AGI-2 происходит в то время, когда многие представители технологической отрасли призывают к созданию новых несыгранных эталонов для измерения прогресса в области ИИ. Соучредитель Hugging Face Томас Вольф недавно рассказал TechCrunch, что в индустрии ИИ не хватает тестов для измерения ключевых характеристик так называемого AGI, включая креативность.

Наряду с новым эталоном Arc Prize Foundation объявил о конкурсе Arc Prize 2025, в рамках которого разработчики должны достичь 85-процентной точности в тесте ARC‑AGI-2, потратив всего 0,42 доллара на задачу.

Источник

Автор: mefdayy

Источник

Рейтинг@Mail.ru
Rambler's Top100