- BrainTools - https://www.braintools.ru -

Топ-20 лучших научных статей об ИИ-агентах в 2024 году

Топ-20 лучших научных статей об ИИ-агентах в 2024 году - 1

Подходит к концу 2024 год — год, который был насыщен огромным количеством исследований в области искусственного интеллекта [1]. Причём настоящий бум произошёл в сфере ИИ-агентов, их архитектур, механизмов принятия решений и способов обучения [2] больших языковых моделей.

К концу года, после прочтения тонны статей, я решил поделиться с вами двадцатью (на мой субъективный взгляд) самыми интересными и влиятельными работами об ИИ-агентах за 2024 год. В этом материале я постараюсь не только кратко рассказать о ключевых идеях и результат и что именно делает каждую из этих статей выдающейся, но и сформулировать, куда в целом двигается область. Если вы хотите за несколько минут узнать о самых ярких новинках в мире ИИ-исследований — вы по адресу (будет, что почитать на каникулах).

Каждый день на свет появляются тысячи новых статей, и успеть прочитать все невозможно. Именно поэтому я создал Dataist AI [3] — бота, который по будням пишет короткие обзоры на самые многообещающие научные публикации. Вы можете пользоваться им бесплатно.

Если вам интересна тема ИИ, мои кейсы и опыт [4], подписывайтесь на мой телеграм-канал [5], где я делюсь инсайтами, практическими советами и последними новостями из мира искусственного интеллекта.

Поехали!

  1. Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [6]

    Процесс инициализации политики включает предварительное обучение, дообучение на инструкциях и внедрение поведения, похожего на человеческое рассуждение.

    Процесс инициализации политики включает предварительное обучение, дообучение на инструкциях и внедрение поведения [7], похожего на человеческое рассуждение.

    Авторы разработали подробную дорожную карту для воспроизведения модели o1 от OpenAI, рассматривая процесс создания модели с точки зрения [8] обучения с подкреплением [9]. Основная цель — определить ключевые компоненты и методы, необходимые для достижения экспертного уровня производительности модели o1 в задачах, требующих повышенных способностей к рассуждению. 

    Авторы также провели обзор существующих открытых проектов, направленных на воспроизведение модели o1, рассматривая их как вариации предложенной дорожной карты. Отдельно подчеркивается перспектива в мультимодальности и использовании симуляторов (моделей мира). Авторы надеются, что предложенная дорожная карта послужит основой для дальнейших исследований в области общего искусственного интеллекта (AGI).

    Работа дает систематизированный подход к воспроизведению крупномасштабной модели, подчеркивая, что правильная комбинация RL и поиска может значительно улучшить качество рассуждений. Это не просто «копия» большой модели, а попытка понять ее фундаментальные строительные блоки.

  2. Agentic Information Retrieval [10]

    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.

    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.

    Авторы представили новую парадигму информационного поиска (IR) под названием “Agentic Information Retrieval” (Agentic IR). Целью исследования является разработка архитектуры и методов, основанных на возможностях больших языковых моделей (LLMs) и агентных систем, для расширения возможностей традиционных систем IR. 

    В исследовании представлена единая архитектура IR-агента , включающая модули памяти [11], мыслительных процессов и внешних инструментов, позволяющих агенту взаимодействовать с различными источниками информации и выполнять многошаговые действия.

    Исследование показывает, что Agentic IR значительно расширяет возможности традиционных систем информационного поиска в области решения более широкого спектра задач, интерактивности и автономности, а также применение в различных повседневных и бизнес-сценариях. 

    Agentic IR представляет собой значительный прорыв в области информационного поиска, предлагая более гибкую и мощную архитектуру, основанную на возможностях современных LLM и агентных систем.

  3. Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [12]

    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов

    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов

    Авторы провели всесторонний обзор текущих моделей мира (world models) и оценили их роль в достижении общего искусственного интеллекта (AGI). Исследование демонстрирует, что модель Sora является значительным достижением в области генерации видео и симуляции окружающего мира. Sora способна создавать высококачественные видео продолжительностью до одной минуты, демонстрируя понимание физических законов и сложных динамических взаимодействий.

    А такие модели как GAIA-1 и DriveDreamer, показывают высокую эффективность в прогнозировании дорожных сценариев и улучшении безопасности автономных транспортных средств. Также модели мира, используемые в качестве симуляторов, значительно улучшают эффективность обучения агентов в игровых и роботизированных средах.

    Модели мира  представляют собой важный шаг вперед в развитии AGI. Однако для дальнейшего прогресса модели мира должны обладать способностью к контрфактическому рассуждению, также необходимо обеспечить более точное моделирование физических явлений и оптимизировать процессы генерации.

    Модели мира уже дают возможность ИИ «понимать» среду и предсказывать последствия действий. Это основа для развития более продвинутых AGI-систем, которым нужно ориентироваться в физическом или виртуальном пространстве. Это путь к по-настоящему умным виртуальным ассистентам и роботам. 

  4. Genie: Generative Interactive Environments [13]

    Genie способна преобразовывать промты в интерактивные, играбельные среды.

    Genie способна преобразовывать промты в интерактивные, играбельные среды.

    Авторы представили Genie — первую генеративную интерактивную среду, обученную с помощью неразмеченных интернет-видео. Целью исследования является создание модели, способной преобразовывать различные виды запросов (тексты, синтетические изображения, фотографии, эскизы) в интерактивные, управляемые действиями виртуальные миры, доступные для исследования и взаимодействия.

    В исследовании используется архитектура ST-Transformer (пространственно-временной трансформер) для обеспечения эффективной обработки видео с учетом как пространственных, так и временных зависимостей. Основные компоненты модели Genie включают видео-токенизатор, латентную модель действий (Latent Action Model, LAM) и динамическую модель. Модель обучалась на большом наборе данных из более чем 200,000 часов публично доступных видео игр 2D платформеров, а также на робототехнических видео из набора данных RT1. 

    Создание интерактивных «на лету» симуляций может радикально поменять подход к разработке игр, обучающих сред, исследовательских инструментов и симуляторов для роботов. Уже доступна Genie 2, которая позволяет создавать 3D-миры для видео и игр.

  5. Agent AI: Surveying the Horizons of Multimodal Interaction [14]

    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.

    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.

    Авторы исследовали область ИИ-агентов как перспективный путь к созданию общего ИИ (AGI). Основная цель заключается в разработке интерактивных агентов, способных воспринимать и действовать в различных физических и виртуальных средах.

    Авторы объединили LLMs и VLMs (Vision Language Models) в единую агентскую систему (Agent Transformer), способную воспринимать и действовать в различных модальностях (текст, изображение, звук, видео). Методы обучения с подкреплением (Reinforcement Learning, RL) и имитационного обучения (Imitation Learning, IL) использовались для повышения эффективности агентов в выполнении задач.

    Авторы включили стратегий оптимизации как пространственных, так и временных аспектов поведения [15] агентов, а также внедрили механизмы непрерывного обучения и самоулучшения. Также был разработан датасет “CuisineWorld”, для оценки и сравнения эффективности различных агентных систем.

    В результате были представлены примеры применения ИИ-агентов в области игр, робототехники и здравоохранения. ИИ-агенты обладают значительным потенциалом для достижения AGI. Однако существуют определённые вызовы, такие как снижение уровня галлюцинаций моделей, уменьшение предвзятости и обеспечение конфиденциальности данных.

  6. The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use [16]

    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. "Использование компьютера из коробки" (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.

    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. “Использование компьютера из коробки” (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.

    Авторы оценили возможности и ограничения новой модели Claude 3.5 Computer Use от компании Anthropic, которая представляет собой первую ИИ-модель для использования компьютера через графический интерфейс пользователя (GUI). Основная цель заключалась в проведении исследования, демонстрирующего способность модели выполнять комплексные задачи в реальных условиях, а также в предоставлении основы для дальнейших исследований в области GUI-агентов.

    Авторы разработали и организовали коллекцию тщательно продуманных задач, охватывающих различные домены и программное обеспечение, включая веб-поиск, рабочие процессы, офисную продуктивность и видеоигры.

    Представлен универсальный кроссплатформенный фреймворк для развертывания моделей GUI-автоматизации на основе API, обеспечивающий простую реализацию и тестирование.

    В результате авторы пришли к выводу, что Claude 3.5 Computer Use обладает высоким потенциалом для автоматизации сложных задач через GUI, однако существует ряд ограничений, связанных с точностью выполнения действий и самооценкой модели. 

  7. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning [17]

    WebRL - фреймворк обучения с подкреплением для саморазвивающихся веб-агентов

    WebRL – фреймворк обучения с подкреплением для саморазвивающихся веб-агентов

    Авторы разработали фреймворк WebRL для обучения высокоэффективных веб-агентов через саморазвивающийся куррикулум, который генерирует новые задачи из неудачных попыток. 

    Была создана надежная модель вознаграждения (Outcome-Supervised Reward Model, ORM) и внедрены методы, обеспечивающие стабильное улучшение производительности агентов. Фреймворк автоматически генерирует задачи различной сложности, адаптируясь к текущим возможностям модели, что способствует постепенному и устойчивому обучению.

    В результате применение WebRL к моделям Llama-3.1-8B и GLM-4-9B привело к увеличению средней успешности выполнения задач на WebArena-Lite с 4.8% до 42.4% и с 6.1% до 43% соответственно. 

    WebRL является эффективным инструментом для обучения веб-агентов на основе открытых LLM, успешно преодолевая основные вызовы, такие как недостаток обучающих задач, разреженность сигналов обратной связи и расходимость политик в онлайн-обучении. 

  8. Personalization of Large Language Models: A Survey [18]

    Персонализация больших языковых моделей: 1 - персонализация текста, 2 - использование персонализированной информации для повышения качества рекомендаций

    Персонализация больших языковых моделей: 1 – персонализация текста, 2 – использование персонализированной информации для повышения качества рекомендаций

    Авторы представили обзор методов персонализации больших языковых моделей (LLMs). Они нацелены на объединение двух основных направлений в области персонализированных LLMs: (a) генерация персонализированного текста и (b) использование LLMs для систем рекомендаций. Целью является создание единой таксономии, формализация теоретических основ персонализации и выявление ключевых различий и вызовов между этими направлениями.

    Авторы ввели три уровня персонализации: на уровне пользователя, на уровне персоны (группа пользователей с общими характеристиками) и на глобальном уровне (общие предпочтения и нормы, принятые широкой аудиторией).

    Методы персонализации на основе использования пользовательской информации включают Retrieval-Augmented Generation (RAG), промтинг, Representation Learning и обучение с подкреплением на основе обратной связи от человека (RLHF).

    Персонализированные ИИ-системы — необходимый шаг для пользовательских сервисов, образовательных платформ и рекомендаций. Но нужно учитывать риски утечки приватных данных и корректно решать проблему предвзятости моделей.

  9. Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities [19]

    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию личности на основе внешней информации в рамках интерактивной симуляционной среды.

    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию [20] личности на основе внешней информации в рамках интерактивной симуляционной среды.

    Авторы представили архитектуру агентов эволюционирующих агентов (Evolving Agents), способную симулировать динамичную и разнообразную человеческую личность в интерактивных симуляционных средах. Целью является создание агентов, чьи личностные характеристики и поведенческие паттерны эволюционируют со временем через взаимодействие с окружающей средой и другими агентами.

    Архитектура эволюционирующих агентов состоит из двух основных систем:

    1. Система Личности (Personality): Включает модули Когниции (Cognition), Эмоций [21] (Emotion) и Рост Характера (Character Growth), отвечающие за когнитивную обработку информации, эмоциональные реакции [22] и развитие характера агента.

    2. Система Поведения (Behavior): Состоит из модулей Планирования (Planning) и Действий (Action), отвечающих за разработку и выполнение конкретных действий агента.

      В результате агентам удалось продемонстрировать реалистичную эволюцию личностных черт и поведенческих паттернов после нескольких дней симуляции. Личностные черты агентов отражались в их поведении, и изменения в личностных

  10. More Agents Is All You Need [23]

    "Agent Forest" — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.

    “Agent Forest” — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.

    Авторы разработали метод Agent Forest и продемонстрировали, что увеличение числа агентов приводит к значительному улучшению производительности ИИ-системы. Они также исследовали свойства задач, которые способствуют достижению этого эффекта, и оценили общую применимость и совместимость предложенного метода с существующими подходами.

    Метод Agent Forest состоит из двух этапов:

    1. Выборка (Sampling): На данном этапе генерируется N различных ответов от агентов (LLMs) путем многократного запроса к модели с тем же вводом.

    2. Голосование (Voting): После генерации выборки ответов производится оценка их сходства. Финальный ответ выбирается как тот, который имеет наибольшее суммарное сходство с остальными ответами в выборке.

      Данное исследование подтверждает, что простое увеличение числа агентов является мощным инструментом для повышения производительности ИИ-систем, особенно в контексте сложных задач. Поэтому не всегда выигрышно обучать одну модель до экстремальных размеров. Несколько моделей поменьше могут совместно выдавать лучший результат, причём дешевле.

  11. Internet of Agents [24]

    Концептуальная архитектура для разработки IoA (Internet of Agents)

    Концептуальная архитектура для разработки IoA (Internet of Agents)

    Авторы представили Internet of Agents (IoA) — новый фреймворк, предназначенный для обеспечения гибкой и масштабируемой коллаборации между автономными агентами, основанными на больших языковых моделях (LLMs). Основная цель заключается в преодолении существующих ограничений мультиагентным систем, таких как изоляция экосистем, симуляция на одном устройстве и жестко закодированные коммуникационные каналы.

    Для достижения поставленных целей авторы создали аналог «Интернета» для агентов, где они могут подключаться к общей сети, обнаруживать друг друга, формировать команды и управлять потоками общения. 

    В результате IoA превосходит лучшие решения типа AutoGPT и Open Interpreter, демонстрируя высокую эффективность в решении сложных задач. IoA успешно объединяет агентов с различными инструментами, архитектурами и базами знаний, что позволяет им совместно решать задачи, требующие разнообразных навыков и специализаций. Также IoT гибко масштабируется и пригодна для распределённых сред (включая Internet-of-Things).

    Мультиагентные системы становятся всё более востребованными. А IoA упрощает процесс интеграции разных агентов, работая как «универсальная шина» для взаимодействия.

  12. Many-agent Simulations toward AI Civilization [25]

    От архитектуры агента к цивилизации агентов.

    От архитектуры агента к цивилизации агентов.

    Авторы исследовали поведение больших групп автономных ИИ-агентов, моделирующих процессы цивилизационного развития. Основная цель заключается в создании масштабных симуляций, включающих от 10 до более чем 1000 агентов, чтобы понять, могут ли такие агенты самостоятельно развивать специализированные роли, соблюдать и изменять коллективные правила, а также участвовать в культурной и религиозной передаче, приближаясь к формированию ИИ-цивилизаций.

    Для этого авторы разработали архитектуру PIANO (Parallel Information Aggregation via Neural Orchestration), которая позволяет агентам в среде Minecraft взаимодействовать с людьми и другими агентами в реальном времени. 

    В результате агенты смогли достигать значительного прогресса в Minecraft, собирая в среднем 17 уникальных предметов за 30 минут и до 320 уникальных предметов за 4 часа в больших группах. А агенты с модулями социальной осведомленности могли точно определять и реагировать на эмоциональные состояния других агентов, формируя устойчивые социальные отношения. 

    В группах агентов наблюдалась специализация на различные роли (фермеры, шахтеры, стражи и т.д.), что способствовало эффективному выполнению задач и развитию цивилизационных структур. Агенты также могли следовать налоговым законам, а также изменять их через демократические процессы, отражая влияние лидеров мнений. В больших симуляциях агенты успешно распространяли культурные мемы и религиозные идеи.

    Глубокое понимание механизмов социального взаимодействия, распределения ролей и «культурных» явлений дает нам новые инструменты для исследования эволюции сообществ и моделирования сложных социальных систем.

  13. AIGS: Generating Science from AI-Powered Automated Falsification [26]

    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.

    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.

    Авторы представили систему AI-Generated Science (AIGS), способную автономно выполнять весь процесс научных исследований и открывать новые законы. Основной акцент делается на интеграцию процесса фальсификации гипотез, что, по мнению авторов, является сутью научного метода и ключевым элементом для обеспечения научной строгости и прозрачности в AIGS-системах.

    Для достижения поставленных целей авторы разработали мультиагентную систему, которая автономно генерирует идеи и методологии исследований, реализует предложенные методологии и проводит эксперименты, анализирует результаты экспериментов и предоставляет обратную связь для доработки предложений, выполняет фальсификацию гипотез через абляционные исследования и верификацию научных открытий.

    В результате система продемонстрировала высокую степень креативности в генерации идей и методологий (иногда нерелевантных), а также практически 100% успешности в реализации предложенных экспериментов.

    Это хорошая возможность полностью автоматизировать научный [27] цикл сулит ускорение исследований в самых разных областях, если удастся повысить качество и «глубину» получаемых результатов.

  14. ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents [28]

    Типы агентов и их взаимодействия в ABIDES-Economist

    Типы агентов и их взаимодействия в ABIDES-Economist

    Авторы представили ABIDES-Economist — симуляционную платформу для экономических систем. Основная цель заключается в моделировании взаимодействий между экономическими агентами для анализа производственных и потребительских процессов в экономике, а также денежного обращения. 

    В исследовании используется агентно-ориентированное моделирование (Agent-Based Modeling, ABM), а сновные подходы включают наличие агентов-домохозяйств и фирм, а также агентов центрального банка и правительства, интеграцию обучения с подкреплением (RL) и моделирование взаимодействий и внешних шоков.

    В результате данное исследование закладывает фундамент для дальнейшего развития автономных систем моделирования экономических процессов, объединяя передовые методы ИИ и экономической теории, что открывает новые перспективы для исследований и практических приложений в области экономики, симулируя различные экономические сценарии.

  15. AFlow: Automating Agentic Workflow Generation [29]

    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.

    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.

    Авторы представили AFLOW – платформу для генерации агентных рабочих процессов (agentic workflows) с использованием больших языковых моделей (LLMs). Основная цель заключается в сокращении зависимости от ручного проектирования рабочих процессов, что позволяет повысить масштабируемость и обобщаемость применения LLMs в различных доменах и сложных задачах.

    В исследовании авторы переосмыслили оптимизацию рабочих процессов как задачу поиска в пространстве кодовых представлений, где узлы представляют вызовы LLM, а ребра определяют логику [30] и зависимости между ними.

    Для разработки фреймворка AFLOW использовался алгоритм  Monte Carlo Tree Search (MCTS), а также операторы, которые служат строительными блоками для построения рабочих процессов.

    В результате на шести публичных бенчмарках (HumanEval, MBPP, GSM8K, MATH, HotPotQA, DROP) AFLOW продемонстрировал среднее улучшение производительности на 5.7% по сравнению с передовыми ручными методами и на 19.5% по сравнению с существующими автоматизированными подходами. Также рабочие процессы, сгенерированные AFLOW, позволили меньшим моделям превосходить GPT-4 на отдельных задачах при 4.55% от стоимости инференса GPT-4.

    Вместо ручной сборки пайплайнов, которая может быть долгой и не всегда оптимальной, AFlow позволяет систематически и быстро находить лучшие конфигурации, экономя ресурсы и повышая точность.

  16. Automated Design of Agentic Systems [31]

    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.

    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.

    Авторы представили новый исследовательский направление автоматизированного проектирования агентных систем (ADAS). Основная цель ADAS заключается в автоматическом создании мощных агентных систем, включая изобретение новых строительных блоков и их комбинаций. Авторы намерены сократить зависимость от ручного проектирования агентных систем, что позволит повысить эффективность, масштабируемость и обобщаемость применения ИИ-агентов в различных доменах и сложных задачах.

    В исследовании представлен алгоритм Meta Agent Search, который реализует подход ADAS через использование мета-агента для генерации кода все более совершенных агентов, переиспользуя “удачные” наработки.

    В результате агентные системы, созданные с помощью Meta Agent Search, значительно превосходят современные ручные методы. Также созданные агенты демонстрируют высокую переносимость между различными моделями и доменами. Они сохраняют превосходную производительность при переносе на новые задачи и модели, подтверждая их надежность и универсальность.

    Это шаг к полноценному мета-программированию, где ИИ берёт на себя роль «архитектора» агентных систем. Такой путь ускоряет разработку ИИ-агентов для различных отраслей.

  17. Thinking LLMs: General Instruction Following with Thought Generation [32]

    Пайплайн оптимизации мыслей.

    Пайплайн оптимизации мыслей.

    Авторы разработали метод обучения больших языковых моделей (LLM) способности “думать” перед ответом на любые задачи, а не только математические или логические. Авторы стремились научить модели генерировать внутренние размышления в текстовой форме для улучшения качества финальных ответов без использования дополнительных размеченных данных.

    Метод Thought Preference Optimization (TPO) позволяет LLM генерировать несколько вариантов ответов с размышлениями, далее модель-судья оценивает только финальные ответы (без размышлений), и на основе оценок формируются пары для обучения методом Direct Preference Optimization (DPO).

    В итоге TPO достигла win rate 52.5% на AlpacaEval и 37.3% на Arena-Hard, превзойдя базовую модель без размышлений, а качество ответов улучшалось с каждой итерацией обучения. Также модель научилась адаптировать длину размышлений под сложность задачи.

    Явная генерация промежуточных рассуждений улучшает качество ответа в широком спектре задач, не требуя ручной аннотации мыслей. Это повышает прозрачность принятия решения и расширяет возможности “думающих моделей” в различных областях применения: от общих задач до маркетинга и здравоохранения.

  18. Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [33]

    Обзор процесса генерации историй в ExploreToM

    Обзор процесса генерации историй в ExploreToM

    Авторы разработали надежный и масштабируемый фреймворк для генерации разнообразных и сложных данных для оценки и обучения LLMs “способности к разуму” (Theory of Mind, ToM). Основная цель заключается в преодолении ограничений существующих бенчмарков, которые используют ограниченные наборы данных с простыми шаблонами, что может приводить к неправильной оценке способностей моделей.

    В исследовании представлен метод ExploreToM, который используется адаптивную генерацию историй с помощью A поиска:*, автоматически генерирует вопросы для оценки понимания и преобразует сюжеты в естественно звучащие повествования.

    В результате Llama-3.1-70B и GPT-4o показали крайне низкие показатели точности (0% и 9% соответственно) на данных, сгенерированных с помощью ExploreToM, что подчеркивает сложность созданных сценариев, а дообучение Llama-3.1-8B-Instruct на данных ExploreToM привело к значительному увеличению точности на классическом бенчмарке ToMi на 27 баллов. Подтверждается 99% согласованность с «правильными» ответами после такой генерации.

    Чтобы моделировать социальные аспекты, ИИ необходима способность к разуму. ExploreToM поднимает планку сложности и выявляет слабые места, стимулируя разработчиков совершенствовать модели в «социальном интеллекте».

  19. MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [34]

    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.

    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.

    Авторы представили систему MindSearch, объединяющую большие языковые модели (LLMs) и поисковые движки для эффективного поиска и интеграции информации из веба. Основная цель заключается в преодолении существующих ограничений поисковых систем, которые часто не соответствуют сложным человеческим намерениям. Авторы стремятся создать мультиагентную архитектуру, имитирующую когнитивные процессы человека при поиске информации, что позволит значительно улучшить качество и релевантность получаемых ответов на сложные запросы.

    MindSearch, состоит из двух основных компонентов: WebPlanner (Планировщик веб-поиска) и WebSearcher (Поисковик веб-страниц). Планировщик моделирует процесс многократного поиска информации, аналогично человеческому мышлению [35], разбивает пользовательский запрос на атомарные под-вопросы и строит динамический граф рассуждений с помощью алгоритма A* и генерирует последовательные и параллельные подзадачи для более глубокого анализа запроса. А поисковик отвечает за иерархический поиск информации в интернете по заданным под-вопросам, формирует несколько похожих запросов, затем агрегирует и фильтрует результаты для получения наиболее релевантной информации.

    Дополнительно, MindSearch включает механизмы управления контекстом между агентами, что позволяет обрабатывать длинные контексты и распределять когнитивную нагрузку между специализированными агентами.

    В результате MindSearch смог обработать более 300 веб-страниц за 3 минуты, что эквивалентно примерно 3 часам человеческой работы. MindSearch на базе InternLM2.5-7B зачастую даёт более предпочтительные ответы, чем ChatGPT-Web (GPT-4o) и Perplexity.ai (оценка пользователей). 

    Таким образом, MindSearch способствует развитию более совершенных и интеллектуальных ИИ-систем, способных эффективно справляться с комплексными задачами информационного поиска.

  20. A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness [36]

    Хронология существующих малых языковых моделей

    Хронология существующих малых языковых моделей

    Авторы представили всесторонний обзор малых языковых моделей (Small Language Models, SLMs) в контексте доминирования больших языковых моделей (Large Language Models, LLMs). Основная цель заключается в анализе текущего состояния исследований, методик, улучшений, областей применения, взаимодействия с LLMs и аспектов надежности SLMs.

    Малые языковые модели способны выполнять специализированные задачи и пригодны для работы в условиях ограниченных ресурсов. SLMs можно получить из LLM с помощью прунинга, дистилляции знаний, квантизации и использованию низгоранговых техник. SLMs успешно применяются в медицинских, финансовых, юридических и научных областях, демонстрируя высокую точность и эффективность. В гибридных архитектурах LLMs могут выступать роутерами для SLMs, улучшая производительность и эффективность целой ИИ-системы.

    Малые языковые модели демонстрируют сопоставимую производительность с LLMs в специализированных задачах при значительно меньших вычислительных затратах и размерах. LLMs далеко не всем доступны; SLM дают экономичные решения для конкретных сценариев (edge-устройства, мобильные приложения, офлайн-режимы). Это направление обеспечивает широкую доступность ИИ-технологий при сохранении высокой производительности и экономический эффективности.

    Итоги

    Итак, подводя итоги года, можно сказать, что исследования в области ИИ-агентов движутся вперёд сразу по нескольким ключевым направлениям.

    Во-первых, нас ждёт ещё больше экспериментов с мультиагентными системами, где автономные «разумные» единицы не просто взаимодействуют, а учатся сотрудничать и конкурировать для достижения общих целей.

    Во-вторых, продолжит развиваться автоматизация проектирования самих агентов и мультиагентных систем, что позволит быстрее создавать более гибкие решения и экономить человеческие ресурсы.

    Третье направление — совершенствование когнитивных навыков: от способности удерживать в памяти контекст до более глубокого понимания языка и среды.

    Четвёртым пунктом, который становится всё более важным, остаётся экономичность: учёные и инженеры продолжают искать пути для снижения вычислительных и денежных затрат, чтобы инновации не упирались в бесконечные бюджеты, а ИИ-приложения были более доступны людям.

    И наконец, безопасность и этика занимают центральное место во всех обсуждениях будущего искусственного интеллекта: без чёткого контроля, прозрачности и ответственного подхода даже самые передовые разработки могут обернуться обратной стороной медали.

    Поздравляю всех с наступающим! Нас ждёт ещё больше захватывающих открытий, и это здорово, ведь мы живём в по-настоящему интересное время. Если вам понравился этот формат и вы хотите видеть подобные обзоры ежемесячно, ставьте «+» к статье — и до новых встреч в следующем году!

Автор: Dataist

Источник [37]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/10619

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучения: http://www.braintools.ru/article/5125

[3] Dataist AI: https://t.me/dataist_bot

[4] опыт: http://www.braintools.ru/article/6952

[5] подписывайтесь на мой телеграм-канал: https://t.me/+UNmFV9PzobhjMzBi

[6] Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective: https://arxiv.org/abs/2412.14135

[7] поведения: http://www.braintools.ru/article/9372

[8] зрения: http://www.braintools.ru/article/6238

[9] подкреплением: http://www.braintools.ru/article/5528

[10] Agentic Information Retrieval: https://arxiv.org/html/2410.09713v1

[11] памяти: http://www.braintools.ru/article/4140

[12] Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond: https://arxiv.org/abs/2405.03520

[13] Genie: Generative Interactive Environments: https://arxiv.org/html/2402.15391v1

[14] Agent AI: Surveying the Horizons of Multimodal Interaction: https://arxiv.org/abs/2401.03568

[15] поведения: http://www.braintools.ru/article/5593

[16] The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use: https://arxiv.org/abs/2411.10323

[17] WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning: https://arxiv.org/abs/2411.02337

[18] Personalization of Large Language Models: A Survey: https://arxiv.org/abs/2411.00027

[19] Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities: https://arxiv.org/html/2404.02718v3

[20] эволюцию: http://www.braintools.ru/article/7702

[21] Эмоций: http://www.braintools.ru/article/9540

[22] реакции: http://www.braintools.ru/article/1549

[23] More Agents Is All You Need: https://arxiv.org/abs/2402.05120

[24] Internet of Agents: https://arxiv.org/abs/2407.07061v2

[25] Many-agent Simulations toward AI Civilization: https://arxiv.org/abs/2411.00114

[26] AIGS: Generating Science from AI-Powered Automated Falsification: https://arxiv.org/abs/2411.11910v1

[27] научный: http://www.braintools.ru/article/7634

[28] ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents: https://arxiv.org/html/2402.09563v1

[29] AFlow: Automating Agentic Workflow Generation: https://arxiv.org/abs/2410.10762

[30] логику: http://www.braintools.ru/article/7640

[31] Automated Design of Agentic Systems: https://arxiv.org/abs/2408.08435

[32] Thinking LLMs: General Instruction Following with Thought Generation: https://arxiv.org/abs/2410.10630

[33] Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning: https://arxiv.org/abs/2412.12175

[34] MindSearch: Mimicking Human Minds Elicits Deep AI Searcher: https://arxiv.org/abs/2407.20183

[35] мышлению: http://www.braintools.ru/thinking

[36] A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness: https://arxiv.org/abs/2411.03350

[37] Источник: https://habr.com/ru/articles/871104/?utm_source=habrahabr&utm_medium=rss&utm_campaign=871104

www.BrainTools.ru

Рейтинг@Mail.ru
Rambler's Top100