
Шаг к ещё более «умному» искусственному интеллекту
Компания OpenAI анонсировала выпуск двух новых моделей из серии o: OpenAI o3 и OpenAI o4-mini. По словам разработчиков, они представляют собой «самые интеллектуальные модели, созданные на сегодняшний день», и впервые объединяют в себе расширенные навыки рассуждения с широким доступом ко всем инструментам внутри ChatGPT. Это означает, что для решения сложных задач модели могут:
-
Выполнять поиск в Интернете в реальном времени.
-
Анализировать загруженные файлы и другие источники данных с помощью Python (включая математические расчёты и статистические операции).
-
Производить углублённый анализ визуальных входных данных (изображений, схем, рисунков).
-
Генерировать изображения через встроенные графические инструменты.
-
Комбинировать несколько инструментов за одно взаимодействие, если того требуют многошаговые задачи.
Таким образом, OpenAI o3 и OpenAI o4-mini нацелены на более «агентное» поведение в ChatGPT: модели автономно «решают», какой набор инструментов применить, чтобы создать максимально развёрнутый и точный ответ. По замыслу разработчиков, это приводит к значительному улучшению результатов в разнообразных сферах — от научных исследований и обучения до программирования и творчества.
Главное отличие: мощное рассуждение + полный набор инструментов
OpenAI o3 позиционируется как наиболее «продвинутая» модель в линейке, охватывающая широкий спектр дисциплин: программирование (включая Codeforces), сложную математику (AIME 2025), бизнес-консалтинг, биологию и инженерные задачи. Отмечается сильная сторона в «зрительном» восприятии (анализ картинок, диаграмм, чертежей) и способность к детальному пошаговому обсуждению гипотез. По официальным метрикам, o3 делает на 20% меньше серьёзных ошибок по сравнению с предыдущей моделью o1, особенно в вопросах программирования, бизнес-аналитики и генерации идей.
OpenAI o4-mini, в свою очередь, — оптимизированная по размеру версия, ориентированная на быстрое и недорогое развёртывание. Она демонстрирует впечатляющие результаты в математике (практически «закрыла» тест AIME 2025 при доступе к Python), обработке данных и визуальных задачах. Благодаря меньшему «весу» модель способна поддерживать более высокие лимиты использования: это хорошо подходит для проектов, где требуется частый запуск reasoning-запросов.
Преимущества новых моделей
1. Глубокое рассуждение и инструменты.
Нововведением стало «агентное» применение инструментов внутри ChatGPT: модель решает, когда нужен веб-поиск, когда нужно что-то визуализировать, а когда достаточно простого текста. В результате сложные вопросы решаются в минимальные сроки, при этом ответы более подробны и структурированы.
2. Ускоренное решение многоэтапных задач.
Задачи, где требуется последовательное применение нескольких инструментов (например, поиск в Интернете → анализ найденных данных → написание кода для дополнительного анализа), теперь выполняются быстрее и надёжнее. Модель самостоятельно «расписывает» цепочку действий и выдаёт итоги в удобном формате.
3. Новые рекорды по точности.
На открытых тестах — Codeforces, SWE-бенч (SWE-Bench Verified), AIME 2024–2025 (соревновательная математика) и GPQA (PhD-уровень вопросов) — o3 и o4-mini превзошли предыдущие модели серии o1 и o3-mini, а также были близки или превосходили их по быстродействию. Для вычислительных задач и программирования улучшение точности видно особенно отчётливо.
4. Мультимодальность и анализ изображений.
Теперь модели не только «видят» изображение, но и «мыслят» с опорой на визуальный контент, поворачивая или масштабируя снимки по мере необходимости. Это открывает путь к решению задач, основанных на графических данных: от научных иллюстраций до рукописных заметок, от схем и диаграмм до чертежей.
5. Более естественные диалоги и раскрытие контекста.
«Чувство разговора» усилено благодаря улучшенной памяти о предыдущих сообщениях в цепочке, что позволяет лучше понимать личные предпочтения пользователя, контекст или прошлую переписку. При этом инструменты встраиваются в диалог более органично.
Сравнительные результаты и таблицы
Разработчики предоставили множество сравнительных таблиц, подтверждающих качественные скачки. Ниже — краткие выдержки из различных бенчмарков:
-
AIME 2024 / 2025:
-
Модель o4-mini с доступом к Python набрала 99,5% баллов против ~98,4% у o3 (python only) и 79,2% у o1.
-
Без использования инструментов оценки чуть ниже, но всё равно сильно превосходят прошлые поколения.
-
-
Codeforces (Competition Code):
-
o3 (terminal access): ELO около 2706
-
o4-mini (terminal access): ELO около 2719
-
Для сравнения, o1 — ELO порядка 1891.
-
-
GPQA Diamond (PhD-level):
-
Модель o3 (с Python + Browsing) достигла 24,9% точности, а при дополнительном специализированном режиме — 26,6%.
-
o1-pro — 8,12%.
-
o4-mini (no tools) — 14,28%, с Python + Browsing — до 17,7%.
-
-
SWE-Bench Verified (программирование в крупных кодовых базах):
-
o3: 69,1% точных решений.
-
o1: 48,9%.
-
o4-mini — около 68,1%, чуть ниже o3, но при этом «mini»-архитектура требует меньше вычислительных ресурсов.
-
Кроме того, o3 и o4-mini получили крайне положительные отзывы в категориях «business/consulting» и «creative ideation». Их способность к «дисциплинированной» аргументации и креативному поиску гипотез выделяется на фоне предыдущего поколения.
Масштабное обучение через Reinforcement Learning
Отдельно OpenAI подчёркивает, что o3 — это итог больших экспериментов в области масштабирования RL (reinforcement learning), где «больше вычислительных мощностей» напрямую ведёт к «лучшим показателям» на всех тестах (автоматизированная генерация данных для обучения). Аналогичную тенденцию разработчики наблюдали и при подготовке GPT-серий, но теперь решили углубиться именно в пост-тренировочное RL на базе reasoning-трейнинга.
Инструментальное обучение.
Теперь модели отрабатывают не только «как пользоваться» встроенными инструментами (Python, поиск, генерация изображений), но и «когда» их применять. Применение того или иного модуля оценивается с позиции «эффективности» решения. Итогом стала способность «o3» и «o4-mini» самостоятельно комбинировать несколько инструментов «на лету», адаптируясь к контексту задачи.
«Мышление с картинками»
Новое поколение моделей способно напрямую учитывать изображения внутри своей цепочки рассуждений:
«Они не просто видят картинку — они мыслят при помощи неё».
Благодаря этому, задачи по анализу визуальной информации, будь то размытие, отражение или низкое качество изображения, стали более доступны алгоритму. Результаты испытаний в мульти-модальных бенчмарках (например, MMMU и MathVista) показывают уверенный рост точности на 5–15% по сравнению с предшествующими моделями.
Более «агентная» работа с инструментами
Важное новшество: OpenAI o3 и o4-mini могут свободно вызывать любые встроенные в ChatGPT функции (включая пользовательские), используя механизм «function calling» по своему усмотрению. Например, если пользователь спрашивает: «Как изменилось летнее энергопотребление в Калифорнии за последние 3 года?», модель может:
-
Выполнить поиск в интернете и найти общедоступные данные.
-
С помощью Python выполнить сводку и построить прогноз.
-
Сгенерировать график или диаграмму.
-
Объяснить, какие факторы повлияли на динамику потребления.
Причём модель не останавливается на одном инструменте: она способна последовательно искать нужную информацию, кодировать и декодировать файлы, обращаться к внешнему API, анализировать изображения и т.д. Это открывает дорогу к более автономной работе ИИ и к автоматическому исполнению нескольких подзадач по цепочке.
Примеры (по данным OpenAI):
-
Сложная математика: Построение 19-й степени полинома с заданными коэффициентами. Модель o3 работает пошагово, используя Python для расчётов.
-
Бизнес-задачи: Анализ гостиничной индустрии, построение прогнозов спроса и выручки по городу, визуализация графиков, предложение оптимальных локаций для открытия новых отелей.
-
Научная сфера: Расширенный поиск по вебу (научные статьи), промежуточные расчёты в Python, чтение диаграмм и таблиц.
-
Спорт: Сравнение ключевых метрик MLB до и после введения новой системы (pitch-clock), с визуализацией трендов и ключевыми выводами.
Все «кейсы» объединяет единое: модель использует глубину рассуждения и «подключает» нужные инструменты в ходе одного диалога.
Отношение «стоимость–производительность»
OpenAI утверждает, что при равном объёме вычислительных ресурсов o3 фактически превосходит o1 (предыдущее поколение) и обеспечивает более высокое качество решений за те же деньги. Аналогично o4-mini улучшает показатели o3-mini. Результат: для широкого круга реальных задач новые модели зачастую оказываются и «умнее», и дешевле в эксплуатации.
Безопасность
Вместе с ростом возможностей появляются риски. OpenAI полностью пересмотрела набор данных для обучения модулей отказа (refusal prompts), где особое внимание уделено запросам в сфере биологической безопасности (biorisk), вредоносного ПО и попыткам «взломать» модель (jailbreak). Благодаря улучшенным фильтрам, o3 и o4-mini лучше распознают опасные и неуместные инструкции. Кроме того, модель научилась обходиться без «выдачи секретных материалов» при веб-поиске.
Помимо натренированных механизмов, организация ввела «монитор» на базе reasoning LLM, который контролирует, какие именно запросы поступают к модели. Если обнаруживается критическая или «граничная» тематика (особенно в сфере биорисков), система дополнительно «подстраховывает» модель и фиксирует возможные угрозы. По итогам внутренних «красных» тестов (~99% опасных запросов были успешно отфильтрованы).
Codex CLI: агентное программирование из терминала
Параллельно OpenAI запускает эксперимент «Codex CLI» — это минималистичная среда, где передовая модель (в том числе o3, o4-mini и GPT-4.1) способна интерпретировать команды прямо в терминале пользователя. Отдельно отмечена поддержка мультимодальных функций, включая распознавание «набросков» в виде изображений.
Явная попытка зайти в ту же историю, что и Claude Code от Anthropic.
Codex CLI опубликован как open-source на github.com/openai/codex и сопровождается призовым фондом в 1 млн долларов США для разработчиков, планирующих интеграции Codex CLI и новых моделей OpenAI. Примерные гранты будут выдаваться в эквиваленте 25 000 USD (API-кредитами).
Доступ и будущее развития
Новые модели поступают к пользователям ChatGPT (Plus, Pro, Team) незамедлительно:
-
o3, o4-mini, o4-mini-high заменяют прежние o1, o3-mini, o3-mini-high.
-
Бесплатные пользователи могут попробовать o4-mini, включив режим «Think» при вводе запроса.
-
ChatGPT Enterprise и Edu получат обновления через неделю.
В API OpenAI обе модели доступны немедленно: нужна авторизация и в некоторых случаях верификация организации. В будущем будет также представлен o3-pro для «профессиональных» сценариев. Разработчики сообщают, что стараются интегрировать «интеллектуальное использование инструментов» везде, чтобы повысить эффективность и продуктивность решений.
По заявлениям компании, это не конец пути: в грядущих моделях планируется дальнейшая синергия между «GPT-семейством» и «o-серией» для ещё более «природного» общения с одновременной способностью к сложным и глубоко структурированным вычислениям.
Итог
Выход OpenAI o3 и OpenAI o4-mini обозначает качественно новую ступень в развитии reasoning-моделей с полным доступом ко всем инструментам ChatGPT. Они одновременно решают расширенный спектр академических задач и демонстрируют высокую гибкость в реальных кейсах — от бизнеса до науки и работы с изображениями. При этом OpenAI подчёркивает, что меры безопасности (refusal prompts, мониторинг) адаптированы к возросшим возможностям моделей.
Самая важная мысль, которую подчеркивают представители OpenAI: «Мы объединили лучшее из GPT‑подхода к диалогам и инструментам с глубоким агентным reasoning, характерным для o-серии». По словам разработчиков, это ещё один шаг к более «самостоятельному» искусственному интеллекту, который не только отвечает на вопросы, но и способен полномасштабно решать задачи, беря часть рутины на себя и предоставляя пользователям готовые, всесторонне проработанные решения.
P.S. Я очень много пишу про разработку c ИИ у себя в телеграм-канале. Заставляю ИИ писать хороший код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ (и как раз на днях потестирую эти o3 и o4-mini). А ещё недавно стал выкладывать подобные обзоры на ютуб. Велком!
Автор: ElKornacio