- BrainTools - https://www.braintools.ru -
Новый тест OpenAI PaperBench показывает, что ИИ пока не может самостоятельно воспроизводить научные исследования, и исследователи-люди по-прежнему имеют преимущество.
Этот тест подвергает системы ИИ серьёзному испытанию: воссоздайте 20 научных работ, представленных на ICML 2024, одной из самых престижных конференций по машинному обучению [1]. Работы охватывают широкий спектр исследований в области машинного обучения: от глубокого обучения с подкреплением [2] до вероятностных методов и тестирования надёжности.
Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование.
Хотя системы ИИ могут искать в интернете общую информацию, они не могут заглянуть в исходный код авторов. Вместо этого они должны разработать собственную полную кодовую базу и создать скрипт reproduce.sh [3], который автоматически запускает все эксперименты. У каждой системы есть двенадцать часов на выполнение задачи в стандартных условиях тестирования.
Проверка каждой заявки представляет собой отдельную задачу. Эксперты-люди обычно тратят десятки часов на оценку одной статьи, что делает крупномасштабное тестирование непрактичным. Чтобы решить эту проблему, OpenAI разработала систему оценки на основе ИИ, которая значительно сокращает время и затраты.
Модель o3-mini, разработанная командой, соответствует человеческому суждению с точностью 83%, при этом сокращая расходы с тысяч долларов за статью до всего 66 долларов. Их более мощная модель o1 обеспечивает чуть более высокую точность — 84%, но стоит дороже — 830 долларов за статью.
Даже самые эффективные модели с трудом воспроизводят результаты опубликованных исследований. Модель Claude 3.5 Sonnet от Anthropic лидирует с показателем 21% успешных воспроизведений результатов статей. Другие системы показали заметно худшие результаты: GPT-4o справился только на 4,1%, DeepSeek-R1 — на 6%, а модель Gemini 2.0 Flash от Google — всего на 3,2%.
Компания OpenAI разработала улучшенную версию своего фреймворка под названием IterativeAgent для повышения производительности. Этот фреймворк заставляет модели ИИ работать в полную силу и решать задачи поэтапно. Результаты показали значительные улучшения: процент успешных решений o1 вырос с 13,2 до 24,4%, а o3-mini — с 2,6 до 8,5%.
Однако не все модели выиграли от такого подхода. Производительность Claude 3.5 Sonnet с новой платформой снизилась с 21 до 16,1 процента. Когда исследователи увеличили лимит времени с 12 до 36 часов, o1 достиг максимальной производительности в 26 процентов. Эти результаты показывают, насколько чувствительны модели ИИ к различным стратегиям побуждения к действию и временным ограничениям, хотя более длительная обработка значительно увеличивает затраты на вычисления.
Чтобы установить базовый уровень для человека, OpenAI наняла восемь аспирантов-компьютерщиков из ведущих университетов, включая Беркли, Кембридж и Корнелл. После 48 часов работы эти исследователи добились 41,4% успешных результатов, что значительно превосходит показатели любой протестированной системы ИИ.
Исследование выявило фундаментальные различия в том, как люди и системы искусственного интеллекта [5] решают сложные исследовательские задачи. В то время как системы искусственного интеллекта быстро генерируют код в первый час, они быстро достигают плато и испытывают трудности со стратегическим планированием и улучшениями. Исследователям-людям требуется больше времени, чтобы сначала понять статьи, но они демонстрируют стабильный прогресс на протяжении всей работы.
Исследование также выявило критическую уязвимость современных систем искусственного интеллекта: большинство из них завершали работу преждевременно, ошибочно полагая, что закончили, или приходя к выводу, что столкнулись с неразрешимыми проблемами. Среди всех протестированных систем только Claude 3.5 Sonnet стабильно использовал весь выделенный ему временной интервал.
Тест теперь доступен на GitHub [6]. Компания OpenAI разработала PaperBench для отслеживания растущих возможностей систем искусственного интеллекта в области независимых исследований, подчёркивая важность мониторинга безопасности ИИ по мере развития этих возможностей.
Чтобы сделать бенчмарк более доступным, OpenAI также предлагает PaperBench Code-Dev — упрощённую версию, которая фокусируется исключительно на разработке кода без его выполнения. Этот упрощённый вариант снижает затраты на оценку на 85 процентов, но при этом позволяет получить значимую информацию о возможностях ИИ.
Источник [7]
Автор: mefdayy
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13860
URLs in this post:
[1] обучению: http://www.braintools.ru/article/5125
[2] подкреплением: http://www.braintools.ru/article/5528
[3] reproduce.sh: http://reproduce.sh
[4] мышлению: http://www.braintools.ru/thinking
[5] интеллекта: http://www.braintools.ru/article/7605
[6] GitHub: https://github.com/openai/preparedness/tree/main/project/paperbench
[7] Источник: https://the-decoder.com/ai-struggles-to-match-human-researchers-in-paper-replication-test/
[8] Источник: https://habr.com/ru/companies/bothub/news/897238/?utm_source=habrahabr&utm_medium=rss&utm_campaign=897238
Нажмите здесь для печати.