Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

ai, openai, бенчмарки, Блог компании BotHub, искусственный интеллект, рассуждающие модели

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим - 1

По данным Artificial Analysis, стороннего тестировщика искусственного интеллекта, оценка модели рассуждений OpenAI o1 с использованием набора из семи популярных тестов искусственного интеллекта: MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 стоит 2767,05 долларов США.

Сравнительный анализ недавней модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов обошелся в $1485,35, тогда как тестирование o3-mini-high от OpenAI обошлось в $344,59, согласно данным Artificial Analysis.

Некоторые модели рассуждений дешевле для бенчмаркинга, чем другие. Например, Artificial Analysis потратила $141,22 на оценку o1-mini от OpenAI. Но в среднем они, как правило, дороги. В общей сложности, Artificial Analysis потратила около $5200 на оценку около дюжины моделей рассуждений, что почти вдвое больше суммы, которую фирма потратила на анализ более 80 нерассуждающих моделей ($2400).

Оценка нелогической модели GPT-4o от OpenAI , выпущенной в мае 2024 года, обошлась Artificial Analysis всего в $108,85, тогда как оценка Claude 3.6 Sonnet — нелогической предшественника Claude 3.7 Sonnet — обошлась в $81,41.

Соучредитель Artificial Analysis Джордж Кэмерон рассказал TechCrunch, что организация планирует увеличить расходы на бенчмаркинг, поскольку все больше лабораторий AI разрабатывают модели рассуждений.

«В Artificial Analysis мы проводим сотни оценок ежемесячно и выделяем на это значительный бюджет», — сказал Кэмерон. «Мы планируем увеличить эти расходы, поскольку модели выпускаются чаще».

Artificial Analysis — не единственная организация, которая сталкивается с ростом затрат на сравнительный анализ AI. Росс Тейлор, генеральный директор стартапа AI General Reasoning, сказал, что недавно потратил $580 на оценку Claude 3.7 Sonnet по примерно 3700 уникальным подсказкам. Тейлор оценивает, что один прогон MMLU Pro, набора вопросов, предназначенного для оценки навыков понимания языка моделью, обошелся бы более чем в $1800.

«Мы движемся к миру, где лаборатория сообщает x% по бенчмарку, где она тратит y вычислений, но где ресурсы для ученых составляют << y», — сказал Тейлор в недавнем посте на X. «Никто не сможет воспроизвести результаты».

Почему тестирование моделей рассуждений обходится так дорого? В основном потому, что они генерируют много токенов. Токены представляют собой фрагменты сырого текста, например, слово «fantastic», разбитое на слоги «fan», «tas» и «tic». Согласно данным Artificial Analysis, o1 от OpenAI сгенерировал более 44 миллионов токенов во время бенчмаркинговых тестов компании, что примерно в восемь раз превышает количество, сгенерированное GPT-4o.

Подавляющее большинство компаний, занимающихся разработкой AI, взимают плату за использование модели в виде токенов, поэтому вы можете видеть, как может складываться эта стоимость.

По словам Жана-Станисласа Денена, старшего научного сотрудника компании Epoch AI, которая разрабатывает собственные модельные тесты, современные тесты также, как правило, вызывают множество токенов из моделей, поскольку содержат вопросы, включающие сложные многоэтапные задачи.

«Сегодняшние бенчмарки стали сложнее, хотя количество вопросов на бенчмарк в целом сократилось», — сказал Денайн TechCrunch. «Они часто пытаются оценить способность моделей выполнять реальные задачи, такие как написание и выполнение кода, просмотр интернета и использование компьютеров».

Денайн добавил, что самые дорогие модели со временем стали дороже за токен . Например, Claude 3 Opus от Anthropic была самой дорогой моделью, когда она была выпущена в мае 2024 года, ее стоимость составляла $70 за миллион выходных токенов. GPT-4.5 и o1-pro от OpenAI, обе из которых были запущены в начале этого года, стоили $150 за миллион выходных токенов и $600 за миллион выходных токенов соответственно.

«Поскольку модели со временем стали лучше, по-прежнему верно, что стоимость достижения заданного уровня производительности со временем значительно снизилась», — сказал Денайн. «Но если вы хотите оценить лучшие самые большие модели в любой момент времени, вы все равно платите больше».

Многие лаборатории AI, включая OpenAI, предоставляют организациям, проводящим бенчмаркинг, бесплатный или субсидируемый доступ к своим моделям для тестирования. Но это окрашивает результаты, говорят некоторые эксперты — даже если нет никаких доказательств манипуляции, простое предположение об участии лаборатории AI грозит нанести ущерб целостности оценки.

«С научной точки зрения, если вы публикуете результат, который никто не может воспроизвести с помощью той же модели, является ли это вообще наукой?» — написал Тейлор в последующем посте на X. «Было ли это когда-либо наукой?»

Источник

Автор: dilnaz_04

Источник