ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста. chatgpt.. chatgpt. llm.. chatgpt. llm. openai.. chatgpt. llm. openai. большие языковые модели.. chatgpt. llm. openai. большие языковые модели. Будущее здесь.. chatgpt. llm. openai. большие языковые модели. Будущее здесь. генеративный ии.. chatgpt. llm. openai. большие языковые модели. Будущее здесь. генеративный ии. искусственный интеллект.. chatgpt. llm. openai. большие языковые модели. Будущее здесь. генеративный ии. искусственный интеллект. Машинное обучение.. chatgpt. llm. openai. большие языковые модели. Будущее здесь. генеративный ии. искусственный интеллект. Машинное обучение. нейросети.. chatgpt. llm. openai. большие языковые модели. Будущее здесь. генеративный ии. искусственный интеллект. Машинное обучение. нейросети. трансформеры.

Компания OpenAI представила новое семейство моделей GPT-4.1 с впечатляющими улучшениями в области программирования, следования инструкциям и работы с длинным контекстом. Рассмотрим ключевые особенности новинок и их преимущества для разработчиков.

P.S кратко написал об этом в Телеграм канале, cсылка на пост

Три модели для разных задач

OpenAI выпустила сразу три модели: флагманскую GPT-4.1, более компактную GPT-4.1 mini и сверхлегкую GPT-4.1 nano. Все они значительно превосходят предыдущее поколение GPT-4o по ключевым показателям и поддерживают контекстное окно до 1 миллиона токенов. Обновленная база знаний моделей включает информацию до июня 2024 года.

Впечатляющие результаты в бенчмарках

GPT-4.1 демонстрирует выдающиеся результаты по трем ключевым направлениям:

  • Программирование: 54,6% на SWE-bench Verified, что на 21,4% лучше GPT-4o и на 26,6% лучше GPT-4.5

  • Следование инструкциям: 38,3% на MultiChallenge, превосходя GPT-4o на 10,5%

  • Длинный контекст: 72,0% на Video-MME в категории длинных видео без субтитров, что на 6,7% лучше GPT-4o

Особенно впечатляет GPT-4.1 mini, которая превосходит GPT-4o по многим показателям, при этом работая почти вдвое быстрее и стоит на 83% дешевле. GPT-4.1 nano, самая компактная модель в линейке, показывает отличные результаты при минимальных затратах ресурсов.

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 1

Прорыв в программировании

Пока что везде мысленно добавляем “якобы”.

В области разработки ПО GPT-4.1 делает огромный шаг вперед. На бенчмарке SWE-bench Verified, измеряющем навыки реального программирования, новая модель выполняет 54,6% задач против 33,2% у GPT-4o.

Результаты SWE-bench Verified

Результаты SWE-bench Verified

Модель также значительно лучше работает с форматом diff при редактировании кода, более чем вдвое превосходя GPT-4o в Aider’s polyglot diff benchmark и даже превосходя GPT-4.5 на 8%.

Aider's polyglot

Компания Windsurf отмечает, что GPT-4.1 на 60% лучше справляется с их внутренним бенчмарком по программированию, а пользователи заметили 30%-ное повышение эффективности при вызове инструментов и снижение вероятности ненужных правок на 50%.

Улучшенное следование инструкциям

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 4

GPT-4.1 гораздо лучше понимает и выполняет сложные инструкции. Модель значительно превосходит предшественников во внутреннем тесте OpenAI на следование инструкциям, особенно в сложных сценариях.

Результаты теста MultiChallenge⁠

Результаты теста MultiChallenge

Компания Blue J сообщает о 53%-ном улучшении точности при анализе сложных налоговых сценариев по сравнению с GPT-4o. А Hex отмечает почти двукратное улучшение в работе с SQL-запросами для сложных схем данных.

Работа с длинным контекстом

Все модели семейства GPT-4.1 поддерживают контекстное окно до 1 миллиона токенов, что эквивалентно более чем 8 копиям всей кодовой базы React. Но важнее то, что модели эффективно используют этот контекст.

OpenAI представила два новых бенчмарка для оценки работы с длинным контекстом: OpenAI-MRCR и Graphwalks. GPT-4.1 показывает превосходные результаты, значительно опережая GPT-4o и сохраняя эффективность даже при контексте в 1 миллион токенов.

In Graphwalks⁠, a model is asked to perform a breadth-first search from a random node in a large graph.

In Graphwalks, a model is asked to perform a breadth-first search from a random node in a large graph.

Thomson Reuters отмечает 17%-ное улучшение точности при анализе нескольких юридических документов с помощью GPT-4.1 по сравнению с GPT-4o. А Carlyle сообщает о 50%-ном улучшении извлечения финансовых данных из объемных документов.

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 7
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 8
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 9

Цены

OpenAI снизила цены на новые модели. GPT-4.1 на 26% дешевле, чем GPT-4o для типичных запросов. Для запросов, повторно использующих тот же контекст, скидка на кэшированный ввод увеличена до 75% (ранее 50%). Длинный контекст не требует дополнительной оплаты сверх стандартной стоимости токенов.

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 10

Доступность и планы

Все три модели GPT-4.1 доступны разработчикам через API с сегодняшнего дня. Они не будут интегрированы в ChatGPT, хотя многие улучшения постепенно внедряются в версию GPT-4o для этого сервиса.

OpenAI также объявила о прекращении поддержки GPT-4.5 Preview через API. Эта модель будет отключена 14 июля 2025 года, давая разработчикам три месяца на переход к новым моделям.

Полные результаты тестирования новых моделей по академическим знаниям, программированию, следованию инструкциям и другим параметрам доступны в официальном анонсе.

Остальные бенчи

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 11
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 12
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 13
ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста - 14

Автор: g_coll

Источник

Рейтинг@Mail.ru
Rambler's Top100