OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей

OpenAI выпустила GPT-4.5 в качестве «Research Preview». Новая языковая модель должна быть более естественной, но она значительно дороже своих предшественников.

OpenAI выпустила GPT-4 ^[1].5 в качестве «исследовательского предварительного просмотра», назвав его своей крупнейшей и лучшей моделью для чата. Новая модель изначально доступна пользователям и разработчикам ChatGPT ^[2] Pro, а пользователи Plus и Team получат доступ на следующей неделе.

OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей - 1

GPT-4.5 представляет собой эволюцию ^[3] «неконтролируемого обучения», а не подход «рассуждения» серии o1. В то время как модели, такие как o1 и o3-mini, думают, прежде чем отвечать посредством рассуждений, GPT-4.5 отвечает напрямую как классическая большая языковая модель, достигая улучшения производительности посредством традиционного масштабирования перед обучением ^[4].

По данным OpenAI, GPT-4.5 (также известная как Orion) является крупнейшей моделью компании на сегодняшний день, и, по словам исследователя OpenAI Рафы Гонтихо Лопеса, ^[5] компания «вероятно обучила самую большую модель в мире». В то же время компания подчеркивает в своей системной карточке, что GPT-4.5 не является «пограничной моделью». Вероятно, это связано с тем, что компания обучила o3 — модель, которая значительно превосходит GPT-4.5 во многих областях.

Цена отражает вычислительные требования: при цене $75 за миллион входных токенов и $150 за миллион выходных токенов GPT-4.5 значительно дороже, чем GPT-4o ($2.50/$10) или o1 ($15/$60). Поэтому команда не уверена, будет ли модель предлагаться через API в этой форме в долгосрочной перспективе. Как и ее предшественник, она имеет длину контекста 128 000 токенов.

OpenAI считает, что рассуждения станут основной возможностью будущих моделей и что два подхода к масштабированию — предварительное обучение и рассуждения — будут дополнять друг друга. Поскольку модели, подобные GPT-4.5, становятся более интеллектуальными и емкими в плане знаний благодаря предварительному обучению, они обеспечивают более прочную основу для рассуждений и агентов на основе инструментов. Несколько недель назад Альтман объявил, что GPT-5 объединит эти две возможности.

В тестах производительности GPT-4.5 демонстрирует значительные улучшения в некоторых областях: в тесте SimpleQA точность достигает 62,5% по сравнению с 38,2% для GPT-4o или 43,6% для недавно выпущенного Grok 3 ^[6].

Уровень галлюцинаций снижается с 61,8% до 37,1%, что превосходит показатели как o1, так и o3-mini. В MMMLU (многоязычном) и MMMU (многомодальном) он превосходит своих предшественников GPT-4o (81,5% и 69,1%) и o3-mini (81,1% и NN) с показателями 85,1% и 74,4% соответственно.

В тестах на оценку людей тестировщики отдали предпочтение GPT-4.5 по сравнению с GPT-4o ^[7] во всех категориях: творческий интеллект ^[8] (56,8%), профессиональные вопросы (63,2%) и повседневные вопросы (57,0%).

Однако в тестах STEM он не может превзойти модели рассуждений, такие как o3-mini: в GPQA (естественные науки) он достигает 71,4% по сравнению с 53,6% для GPT-4o, но отстает от OpenAI o3-mini (79,7%). В AIME ’24 (математика ^[9]) GPT-4.5 достигает 36,7%, что является значительным улучшением по сравнению с GPT-4o (9,3%), но не приближается к o3-mini (87,3%). Для задач кодирования GPT-4.5 показывает лучшие результаты в тесте SWE-Lancer Diamond Test с 32,6% по сравнению с GPT-4o (23,3%) и превосходит o3-mini (10,8%) — хотя и при значительно более высоких затратах. В тесте SWE-Bench Verified он достигает 38,0% по сравнению с 30,7% у GPT-4o, но отстает от o3-mini (61,0%).

Недавно выпущенный Claude 3.7 Sonnet ^[10] достигает 62,3% и 70,3% соответственно в бенчмарках, опубликованных Anthropic. Однако эти значения не являются напрямую сопоставимыми, поскольку использовались или тестировались разные методы и наборы задач. Показательный пример: в системной карте для o3-mini модель все равно достигла 49,3%.

В независимом тесте Aider Polyglot Coding Benchmark ^[11] GPT-4.5 достигает 45%, что значительно больше, чем 23% GPT-4o, но все еще отстает от других моделей. Sonnet 3.7 достигает 60% без долгих размышлений.

В общем, в бенчмарках не наблюдается значительного скачка производительности — лучшие результаты, вероятно, получены в тесте SimpleQA. В ближайшие дни, вероятно, будет много дискуссий о том, умерло ли масштабирование, уперлось ли глубокое обучение в стену и когда рассуждения могут постичь те же участь.

Генеральный директор OpenAI Сэм Альтман, недавно ставший отцом, не присутствовал на презентации GPT-4.5, но прокомментировал X: «Это первая модель, которая ощущается мной как разговор с вдумчивым человеком. У меня было несколько моментов, когда я откидывался на спинку стула и был поражен, получив действительно хороший совет от ИИ». Альтман подчеркивает, что GPT-4.5 не является моделью рассуждений и не побьет рекорды производительности: «Это другой вид интеллекта, и в нем есть магия, которую я раньше не чувствовал».

Значит, речь идет скорее об ощущениях, чем о показателях. Основатель и бывший сотрудник Андрей Карпати видит аналогичный прогресс, хотя ему сложно его измерить. В своих комментариях к релизу он объясняет, что каждый шаг в 0,5 номера версии представляет собой примерно десятикратное увеличение вычислений обучения.

Карпати описывает эволюцию моделей GPT ^[12] : от GPT-1, которая едва генерировала связный текст, до GPT-2 как «запутанной игрушки», и до GPT-3 ^[13] , которая давала значительно более интересные результаты. Затем GPT-3.5 перешла порог готовности к выходу на рынок и спровоцировала «момент ChatGPT» OpenAI.

По словам Карпати, с GPT-4 улучшения были уже более тонкими. «Все было просто немного лучше, но в размытом виде», — пишет он. Выбор слов был несколько более креативным, понимание нюансов подсказки улучшилось, аналогии стали немного более осмысленными, модель была немного смешнее, а галлюцинации возникали несколько реже.

Он протестировал GPT-4.5 с похожими ожиданиями, модель, разработанную с десятикратным увеличением вычислений для обучения GPT-4. Его вывод: «Я был на том же хакатоне 2 года назад. Все немного лучше и это потрясающе, но и не совсем в тех аспектах, на которые можно было бы указать».

Источник ^[14]

Автор: dilnaz_04

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12666

URLs in this post:

[1] GPT-4: https://the-decoder.com/open-ai-gpt-4-announcement/

[2] ChatGPT: https://the-decoder.com/chatgpt-is-a-gpt-3-chatbot-from-openai-that-you-can-test-now/

[3] эволюцию: http://www.braintools.ru/article/7702

[4] обучением: http://www.braintools.ru/article/5125

[5] исследователя OpenAI Рафы Гонтихо Лопеса,: https://x.com/rapha_gl/status/1895213014699385082

[6] Grok 3: https://the-decoder.com/grok-3-rebels-against-musk-xai-blames-ex-openai-employee-for-censorship/

[7] GPT-4o: https://the-decoder.com/openai-updates-chatgpt-with-new-feature-and-new-gpt-4o-model/

[8] интеллект: http://www.braintools.ru/article/7605

[9] математика: http://www.braintools.ru/article/7620

[10] Claude 3.7 Sonnet: https://the-decoder.com/anthropic-launches-claude-3-7-sonnet-hybrid-ai-model-and-claude-code-programming-tool/

[11] тесте Aider Polyglot Coding Benchmark: https://aider.chat/docs/leaderboards/

[12] Карпати описывает эволюцию моделей GPT: https://x.com/karpathy/status/1895213020982472863

[13] GPT-3: https://the-decoder.com/openai-cuts-prices-for-gpt-3-by-two-thirds/

[14] Источник: https://the-decoder.com/gpt-4-5-is-here-openais-largest-model-in-the-world-convinces-with-vibes-instead-of-benchmarks/

[15] Источник: https://habr.com/ru/companies/bothub/news/886656/?utm_source=habrahabr&utm_medium=rss&utm_campaign=886656

Нажмите здесь для печати.