Всем привет!
Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:
-
Продуктовым менеджерам — интегрировать AI без перегрузки команд;
-
Разработчикам — выбирать инструменты под конкретные бизнес-задачи;
-
Специалистам по данным — избегать ошибок в production-развертывании.
У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.
Сегодняшний перевод — The End of Search, The Beginning of Research
Статья раскрывает прорыв в области ИИ: появление первых эффективных узкоспециализированных ИИ-агентов на базе моделей-рассуждателей (Reasoners), способных проводить глубокие исследования на уровне PhD за минуты вместо часов.
Ключевые инсайты:
-
Reasoners делают качественный скачок в возможностях ИИ благодаря способности “думать” перед ответом
-
Узкоспециализированные агенты (как OpenAI Deep Research) уже экономически эффективны, в отличие от универсальных
-
Рождается новая парадигма: от поиска информации к её автоматизированной глубокой обработке
ИИ-исследователи способны за минуты выдавать работу уровня младшего PhD, трансформируя роль экспертов и консалтинговых фирм от исполнителей к кураторам и верификаторам сгенерированных результатов.
Долгое время я обсуждал две параллельные революции в ИИ: появление автономных агентов и развитие мощных моделей рассуждений с тех пор, как OpenAI запустила o1. Эти две линии наконец сошлись в нечто действительно впечатляющее — системы ИИ, способные проводить исследования с глубиной и нюансами человека-эксперта, но на машинной скорости. Deep Research от OpenAI демонстрирует это слияние и даёт нам представление о том, каким может быть будущее. Но чтобы понять, почему это важно, нам нужно начать с базовых элементов: моделей рассуждений и агентов.
Модели рассуждений
Последние пару лет, когда вы использовали чат-бота, он работал простым способом: вы что-то вводили, и он сразу начинал отвечать слово за словом (или, если говорить техническим языком, токен за токеном). ИИ мог “думать” только во время генерации этих токенов, поэтому исследователи разработали приёмы для улучшения его рассуждений — например, говоря ему “думай шаг за шагом, прежде чем отвечать”. Этот подход, называемый цепочкой рассуждений (chain-of-thought prompting), заметно улучшил производительность ИИ.
Модели рассуждений по сути автоматизируют этот процесс, создавая “токены мышления” перед тем, как дать вам ответ. Это стало прорывом как минимум в двух важных аспектах. Во-первых, поскольку компании, разрабатывающие ИИ, теперь могли научить системы рассуждать на основе примеров действительно хороших решателей задач, ИИ может “думать” более эффективно. Этот процесс обучения может создать цепочку рассуждений более высокого качества, чем мы можем получить с помощью промптов. Это означает, что модели рассуждений способны решать гораздо более сложные задачи, особенно в таких областях как математика или логика, где старые чат-боты терпели неудачу.
Вторым аспектом прорыва стало то, что чем дольше модели рассуждений “думают”, тем лучше становятся их ответы (хотя скорость улучшения замедляется с увеличением времени обдумывания). Это очень важно, потому что раньше единственным способом улучшить ИИ было обучение всё больших и больших моделей, что очень дорого и требует много данных. Модели рассуждений показывают, что можно улучшить ИИ, просто позволив им генерировать больше токенов мышления, используя вычислительную мощность в момент ответа на вопрос (так называемые вычисления в процессе вывода), а не во время обучения модели.

Graduate-Level Google-Proof Q&A тест (GPQA) — это серия вопросов с множественным выбором, при ответе на которые доступ к интернету не помогает. Люди с докторской степенью, имеющие доступ к интернету, правильно отвечают на 34% вопросов вне своей специализации и на 81% вопросов в своей области. График иллюстрирует, как модели рассуждений ускорили рост возможностей ИИ. Источник данных.
Поскольку модели рассуждений очень новы, их возможности быстро расширяются. Всего за несколько месяцев мы увидели впечатляющие улучшения от семейства o1 от OpenAI до их новых моделей o3. Тем временем китайская компания DeepSeek r1 нашла инновационные способы повысить производительность, одновременно снизив затраты, а Google запустил свою первую модель рассуждений. Это только начало — ожидайте увидеть больше этих мощных систем, и скоро.
Агенты
Хотя эксперты спорят о точном определении агента ИИ, мы можем думать о нем просто как об “ИИ, которому дается цель, и который может преследовать эту цель автономно”. Сейчас между лабораториями ИИ идет гонка за создание агентов общего назначения — систем, которые могут справиться с любой задачей, которую вы перед ними поставите. Я писал о некоторых ранних примерах, таких как Devin и Claude с использованием компьютера, но OpenAI только что выпустила Operator, возможно, самого отточенного агента общего назначения на сегодняшний день.
Видео ниже, ускоренное в 16 раз, показывает как преимущества, так и недостатки агентов общего назначения. Я даю Operator задачу: прочитай мою последнюю публикацию на OneUsefulThing в Substack, а затем перейди на Google ImageFX и создай подходящее изображение, скачай его и передай мне для публикации. То, что происходит далее, весьма познавательно. Сначала Operator действует с впечатляющей точностью — находит мой сайт, читает публикацию, переходит на ImageFX (кратко останавливаясь, чтобы я мог ввести логин) и создает изображение. Затем начинаются проблемы, и они двоякие: Operator не только блокируется ограничениями безопасности OpenAI на скачивание файлов, но и начинает испытывать трудности с самой задачей. Агент методично пробует все возможные обходные пути: копирование в буфер обмена, генерацию прямых ссылок, даже исследование исходного кода сайта. Каждая попытка терпит неудачу — некоторые из-за ограничений браузера OpenAI, другие из-за собственного непонимания агентом того, как фактически выполнить задачу. Наблюдение за этим определенным, но в конечном счете неудачным циклом решения проблем раскрывает как текущие ограничения этих систем, так и поднимает вопросы о том, как агенты будут в конечном итоге вести себя при столкновении с барьерами в реальном мире.
Проблемы Operator указывают на текущие ограничения агентов общего назначения, но это не значит, что агенты бесполезны. Похоже, что экономически ценные узкоспециализированные агенты, которые фокусируются на конкретных задачах, уже возможны. Эти специалисты, работающие на основе текущей технологии LLM, могут достичь замечательных результатов в своих областях. Наглядный пример: новый Deep Research от OpenAI, который показывает, насколько мощным может быть узкоспециализированный ИИ-агент.
Deep Research
Deep Research от OpenAI (не путать с Deep Research от Google, о котором чуть позже) — это, по сути, узкоспециализированный исследовательский агент, построенный на базе еще не выпущенной модели рассуждений o3 от OpenAI, с доступом к специальным инструментам и функциям. Это одно из самых впечатляющих приложений ИИ, которые я видел в последнее время. Чтобы понять, почему, давайте предложим ему тему. Я специально выберу технически сложный и спорный вопрос из моей области исследований: Когда стартапам следует прекратить исследование и начать масштабирование? Я хочу, чтобы вы изучили академические исследования по этой теме, сосредоточившись на высококачественных статьях и рандомизированных контролируемых испытаниях, включая работу с проблемными определениями и противоречиями между общепринятым мнением и исследованиями. Представьте результаты для обсуждения на уровне аспирантуры.

ИИ задает несколько умных вопросов, и я уточняю, что хочу. Теперь o3 начинает работу. Вы можете видеть ход работы и “мышление” в процессе. Действительно стоит потратить секунду и взглянуть на несколько образцов этого процесса ниже. Вы можете увидеть, что ИИ работает как настоящий исследователь, изучая находки, углубляясь в то, что его “интересует”, и решая проблемы (например, находя альтернативные способы доступа к статьям, защищенным платным доступом). Это продолжается пять минут.

Серьезно, уделите минуту и посмотрите на эти три фрагмента его процесса “мышления”
В конце я получаю черновик из 13 страниц, 3 778 слов, с шестью цитатами и несколькими дополнительными ссылками. Он, честно говоря, очень хорош, хотя мне хотелось бы больше источников. Текст объединяет сложные и противоречивые концепции, находит некоторые неожиданные связи, цитирует только высококачественные источники, и полон точных цитат. Я не могу гарантировать, что всё корректно (хотя я не заметил никаких ошибок), но был бы доволен, если бы что-то подобное представил начинающий аспирант. Вы можете увидеть полные результаты здесь, но нескольких фрагментов ниже достаточно, чтобы показать, почему я настолько впечатлен.

Качество цитирования также представляет собой настоящий прогресс. Это не обычные галлюцинации ИИ или неверно процитированные статьи — это законные, высококачественные академические источники, включая фундаментальные работы моих коллег Саером (Ронни) Ли и Дэниела Кима. Когда я нажимаю на ссылки, они не только ведут меня к статьям, но часто направляют непосредственно к соответствующим выделенным цитатам. Хотя все еще есть ограничения — ИИ может получить доступ только к тому, что он может найти и прочитать за несколько минут, а статьи, доступ к которым ограничен платным доступом, остаются недоступными — это представляет собой фундаментальный сдвиг в том, как ИИ может взаимодействовать с академической литературой. Впервые ИИ не просто резюмирует исследование, а активно взаимодействует с ним на уровне, который действительно приближается к научной работе человека.

Стоит сравнить его с продуктом Google, запущенным в прошлом месяце и также названным Deep Research (вздох). Google находит гораздо больше цитат, но они часто представляют собой смесь веб-сайтов разного качества (отсутствие доступа к информации, защищенной платным доступом, и книгам вредит всем этим агентам). Кажется, он собирает документы одновременно, в отличие от исследования на основе любознательности, которое проводит агент OpenAI. И, поскольку (на данный момент) он работает на базе не использующей рассуждения, более старой модели Gemini 1.5, общее резюме гораздо более поверхностное, хотя все еще достойное и, по-видимому, без ошибок. Это похоже на очень хороший студенческий продукт. Я полагаю, что разница будет очевидна, если вы прочитаете немного ниже.

Для перспективы: оба результата представляют собой работу, которая обычно занимает часы человеческих усилий — почти анализ уровня PhD от системы OpenAI, солидная работа уровня бакалавра от Google. OpenAI делает смелые заявления в своем анонсе, с графиками, предполагающими, что их агент может справиться с 15% исследовательских проектов высокой экономической ценности и 9% проектов очень высокой ценности. Хотя эти цифры заслуживают скептицизма — их методология не объяснена — мое практическое тестирование показывает, что они не совсем необоснованны. Deep Research действительно может производить ценный, сложный анализ за минуты, а не часы. И учитывая быстрый темп развития, я ожидаю, что Google не позволит этому разрыву в возможностях сохраняться долго. Вероятно, в ближайшие месяцы мы увидим быстрое улучшение исследовательских агентов.
Как элементы соединяются воедино
Вы можете начать видеть, как элементы, которые создают лаборатории ИИ, не просто складываются вместе — они усиливают друг друга. Модели рассуждений обеспечивают интеллектуальную мощность, а агентные системы предоставляют возможность действовать. Сейчас мы находимся в эпохе узкоспециализированных агентов, таких как Deep Research, потому что даже наши лучшие модели рассуждений не готовы для автономии общего назначения. Но “узкоспециализированные” не означает “ограниченные” — эти системы уже способны выполнять работу, которая раньше требовала команд высокооплачиваемых экспертов или специализированных консалтинговых фирм.
Эти эксперты и консалтинговые фирмы не исчезнут — если уж на то пошло, их суждения становятся еще более важными, поскольку они эволюционируют от выполнения работы к организации и проверке работы систем ИИ. Но лаборатории считают, что это только начало. Они делают ставку на то, что лучшие модели разгадают код агентов общего назначения, выходя за рамки узких задач и становясь автономными цифровыми работниками, которые могут ориентироваться в интернете, обрабатывать информацию во всех модальностях и предпринимать значимые действия в реальном мире. Operator показывает, что мы еще не достигли этого, но Deep Research указывает на то, что мы, возможно, на правильном пути.
Автор: Kual