
Большие языковые модели (LLM) научились не только генерировать текст, но и выполнять реальные задачи, используя команды на естественном языке. Это открыло новую эру в автоматизации, породив так называемых LLM-агентов. Исследование “API Agents vs. GUI Agents: Divergence and Convergence” от Microsoft разбирает два ключевых подхода к созданию таких агентов. Давайте посмотрим, в чем их суть, различия и перспективы.
В чем проблема?
Сегодня существуют два основных типа LLM-агентов:
-
API-агенты: Эти агенты взаимодействуют с программами через специально созданные программные интерфейсы (API). Представьте себе Microsoft Copilot или плагины для ChatGPT – они работают именно так. Этот подход популярен благодаря своей надежности, эффективности и относительной простоте интеграции в существующие системы.
-
GUI-агенты: Эти агенты работают иначе – они взаимодействуют с программами через их графический пользовательский интерфейс (GUI), имитируя действия человека: клики мышкой, ввод текста в поля и так далее. Их появление стало возможным благодаря развитию мультимодальных LLM, которые могут “видеть” экран и понимать, что на нем изображено.


Хотя цель у обоих типов агентов одна – автоматизировать задачи – они кардинально различаются по своей архитектуре, принципам работы, надежности и сферам применения. До сих пор не было четкого понимания их сравнительных плюсов и минусов, а главное – как их можно использовать вместе. Разработчикам и исследователям нужно руководство: когда выбирать API-подход, когда – GUI, а когда их комбинировать? Эта статья пытается дать ответы.
Цель исследования
Авторы решили провести первое комплексное сравнение API-агентов и GUI-агентов:
-
Детально разобрать различия между этими двумя подходами по ключевым параметрам: надежность, эффективность, гибкость и другим.
-
Изучить возможности их объединения и потенциал создания гибридных решений, сочетающих сильные стороны обоих типов.
-
Предложить четкие критерии выбора и описать практические сценарии, чтобы помочь специалистам принимать обоснованные решения при разработке LLM-агентов.
-
Обозначить будущие направления развития, где границы между API- и GUI-агентами могут стереться, ведя к созданию более гибких систем.
Как проводили исследование?
Авторы сравнили два подхода по 9 важным параметрам: модальность ввода/вывода, надежность, эффективность, доступность (насколько легко применить к разным программам), гибкость, безопасность, поддерживаемость, прозрачность работы и человекоподобность взаимодействия. Для каждого аспекта привели аргументы, подчеркивающие различия.
Параметр |
Агенты API |
Агенты GUI |
---|---|---|
Модальность |
Опираются на текстовые вызовы API |
Зависит от снимков экрана или структур доступности |
Надежность |
Как правило, выше при наличии чётко определённых конечных точек |
Ниже из-за визуального анализа и изменений в макете |
Эффективность |
Выполняют сложные задачи за один вызов |
Требуют нескольких действий, похожих на действия пользователя |
Доступность |
Ограничены опубликованными или предопределёнными API |
Могут работать с любым видимым элементом интерфейса |
Гибкость |
Ограничены существующими API |
Высоко адаптируемы к новым или нераскрытым функциям |
Безопасность |
Управляются за счёт детального контроля конечных точек |
Более рискованны из-за широкого доступа к элементам интерфейса |
Поддерживаемость |
Стабильны, если API остаются версионированными |
Подвержены сбоям при редизайне интерфейса |
Прозрачность |
Часто скрыты, управляемы серверной частью |
Пошагово, визуально отслеживаемы |
Человеко-подобное взаимодействие |
Чисто программные |
Имитируют действия пользователя на экране |
Исследователи изучили существующие и потенциальные способы комбинирования API- и GUI-взаимодействий:
-
Создание API-“оберток” над GUI-интерфейсами (когда API нет, но можно имитировать его через GUI).
Пример API-обертки над рабочим процессом GUI -
Использование инструментов оркестрации, которые могут сами решать, когда использовать API (если доступен и эффективен), а когда – GUI (если API нет или он не подходит).
Пример единого оркестратора для управления действиями API и GUI -
Применение Low-code/No-code платформ, которые скрывают от пользователя детали реализации агента (API или GUI).
Пример платформы без кода для создания рабочих процессов, интегрирующих как вызовы API, так и GUI-агентов -
Разработка рекомендаций: Сформулировали практические советы и критерии для выбора оптимального подхода (API, GUI или гибрид) в зависимости от задачи и требований.
Что в итоге?
Авторы представили детальный анализ сценариев применения API-, GUI-агентов и гибридного подхода:
Сценарий |
Рекомендуемый подход |
Обоснование |
---|---|---|
Стабильные, хорошо документированные API |
API-агенты |
Используют надежные конечные точки для быстродействия и надёжности |
Критичные по производительности операции |
API-агенты |
Снижают задержки и накладные расходы благодаря прямым вызовам функций |
Контролируемый доступ к приложениям |
API-агенты |
Обеспечивают безопасность и защиту |
Устаревшее или проприетарное ПО |
GUI-агенты |
Автоматизируют задачи без необходимости интеграции с бэкендом |
Визуальная проверка или тестирование UI |
GUI-агенты |
Проверяют текст или элементы непосредственно на экране |
Интерактивное или графическое управление |
GUI-агенты |
Имитируют действия пользователя для работы с визуальными элементами |
Частичное покрытие API |
Гибридный подход |
Комбинируют UI-операции, где API отсутствуют, с прямыми вызовами для ресурсоемких задач |
Адаптация к будущим изменениям |
Гибридный подход |
Обеспечивают переход от GUI к API по мере развития конечных точек |
-
API-агенты:
-
Плюсы: Высокая эффективность (одна команда API заменяет много кликов), надежность (API меняются реже и предсказуемее, чем GUI), безопасность (четко определенные права доступа через API), поддерживаемость (версионирование API).
Минусы: Доступность и гибкость ограничены наличием и возможностями существующих API. Работа агента часто непрозрачна для конечного пользователя.
-
-
GUI-агенты:
-
Плюсы: Высокая доступность (могут работать почти с любым ПО, у которого есть GUI), гибкость (могут взаимодействовать с любыми элементами на экране), прозрачность (пользователь видит, что делает агент), имитация человекоподобного взаимодействия.
-
Минусы: Низкая эффективность (много шагов для простых действий), низкая надежность (очень чувствительны к малейшим изменениям в интерфейсе – редизайн ломает агента), проблемы с безопасностью (агент получает широкий доступ к интерфейсу), сложность поддержки.
-
-
Способы объединения:
-
Авторы показали, что граница между подходами не такая уж и жесткая.
-
Представлены практические примеры гибридных подходов (API-обертки, оркестраторы, low-code платформы), которые позволяют брать лучшее от обоих. Например, оркестратор может использовать API для быстрых и надежных операций, а если нужного API нет – переключиться на GUI-агента для выполнения задачи через интерфейс.
-
Итак, API-агенты – лучший выбор, если есть стабильные API, важна высокая производительность и безопасность. GUI-агенты – подходят для работы с устаревшими системами без API, когда нужна визуальная проверка действий или точная имитация работы пользователя. А гибридный подход – рекомендуется, если API покрывают только часть нужной функциональности или если нужна гибкость на будущее (например, при работе с постоянно меняющимся ПО).
Выводы
API- и GUI-агенты – это не столько конкуренты, сколько взаимодополняющие инструменты. Понимание их сильных и слабых сторон очень важно для выбора правильного решения.
Гибридные подходы – самое перспективное направление. Они позволяют создавать более универсальные и адаптивные системы автоматизации, способные работать в сложных и разнообразных программных средах. А развитие мультимодальных LLM будет и дальше ускорять прогресс GUI-агентов, делая их надежнее и умнее.
Появление же унифицированных платформ и low-code/no-code решений упростит создание сложных рабочих процессов с использованием обоих типов агентов, делая продвинутую автоматизацию доступнее.
Но надежность GUI-агентов остаются серьезными проблемами. Изменения в интерфейсе приложений легко ломают их, требуя постоянной доработки. Также и безопасность GUI-агентов требует особого внимания – они потенциально могут выполнить нежелательные действия через интерфейс пользователя.
В целом, статья – своевременный и полезный материал для всех, кто интересуется ИИ и автоматизацией. Она закладывает хорошую базу для дальнейшего изучения гибридных архитектур и разработки более умных и гибких LLM-агентов будущего.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist