- BrainTools - https://www.braintools.ru -
Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение [1] и память [2], получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.
Причины кроются в самой архитектуре моделей: LLM обучаются на огромных массивах данных, но не способны самостоятельно проверять достоверность информации. Ответы языковых моделей невозможно предугадать, поэтому и саму проблему галлюцинаций устранить сложно. Даже с доступом к актуальной информации LLM иногда выдают ответы, основанные на неправильных данных. ChatGPT часто вырывает данные из контекста или предлагает устаревшую статистику, из-за чего приходится самостоятельно проверять ответы.
В 2025 году компании-разработчики, такие как OpenAI, Google и Anthropic, сосредоточатся на интеграции моделей с базами проверенных данных и усилении фильтров для критической информации. Большинство компаний уже используют RAG-подход для устранения галлюцинаций. Плюс RAG дополнительно усиливает надежность моделей: он позволяет сначала выполнить поиск релевантных данных в подключенных базах, а затем генерировать ответы на их основе. То есть модель еще будет предоставлять ссылки на источники. Сейчас так делают GPT-4, Gemini и Perplexity.
Однако не стоит ожидать, что проблему с галлюцинациями тут же решат в 2025 году. Чтобы разучить модели «обманывать», нужны значительные ресурсы. Прежде всего, электричество, потребление которого, по прогнозам [3], вырастет на 160% к 2030 году из-за разработки LLM.
Перед тем как интегрировать LLM в работу, рекомендую провести им тесты на галлюцинации и задать вопросы из нужной вам сферы. Сделать это бесплатно и без VPN можно на платформе LLMArena [4]. Сервис позволяет сравнить две языковые модели и выбрать ту, которая лучше справляется с вашими задачами.
Fine-tuning никогда не был универсальным решением. На практике его эффективно применяют лишь в одном случае из двадцати. Добиться качественного результата, который сохраняет калибровку HLRF (High-Level Reasoning Framework) и не вызывает галлюцинаций, удается еще реже. Большинство задач уже решают базовые модели. Современные LLM, такие как GPT, обучены на огромных объемах данных и успешно справляются с широким спектром задач при грамотной формулировке запроса.
Fine-tuning имеет смысл только для задач, требующих специфических знаний или узкого контекста, которых нет у базовой модели. Главный минус подхода — требует вычислительных ресурсов и времени. Для качественного результата нужен большой объем точной и релевантной информации. А если модель перегрузить, то снизится ее универсальность. К примеру, она будет выдавать однотипные ответы.
В 2025 году fine-tuning, вероятно, станет еще менее востребованным, так как современные базовые модели способны решать большинство задач без дообучения. Вместо этого акцент сместится на prompt engineering — умение правильно формулировать запросы для получения нужных результатов без дополнительной настройки.
Большие языковые модели работают с огромными объемами информации, в том числе конфиденциальной. Проблема в том, что они могут «запомнить» куски этих данных. Например, если модель обучается на открытых источниках или подключается к системам через API, всегда есть риск, что информация случайно или намеренно утечет.
Облачные сервисы добавляют еще больше рисков. Данные отправляются на удаленные серверы для обработки, и в этот момент злоумышленники могут попытаться перехватить их или найти уязвимости. Бывали случаи, когда слабые места в языковых моделях использовались для вытягивания чужих секретов.
В 2025 году защита данных станет приоритетом. Компании начнут больше вкладываться в безопасные решения. Например, многие будут использовать локальные модели, которые обрабатывают данные на месте, без отправки в облако. Также усилится контроль над тем, что именно модели могут «запоминать», чтобы минимизировать риск утечек.
Хотя многие говорят, что в новом году нас ждет прорыв в сфере автономных систем, это вызывает сомнения. Проблема не в том, что такие агенты технически невозможно создать — при желании и серьезных вложениях можно добиться впечатляющих результатов. Но на практике это очень сложный продукт.
Агенты требуют учета огромного количества переменных, больше, чем классические чат-боты. Каждая из них добавляет сложности на этапах проектирования, тестирования и поддержки. Такие решения могут позволить себе только крупные компании, например, Amazon. Их агент Amazon Connect Contact Lens [5] анализирует поведение [6] клиентов по звонкам в реальном времени и работу сотрудников колл-центра. Такой агент действительно может взять на себя роль отдела контроля качества.
Хотя спрос на ИИ-агентов растет, но ждать революции не стоит. А вот количество фреймворков для разработки агентов точно увеличится. Все хотят повторить успех LangChain [7] и занять свое место на рынке. Даже Pydantic [8] подключился с новым подобным проектом. Так что через пару лет можно ожидать мощные и доступные инструменты, которые сделают разработку агентов проще.
Они позволяют увеличить когнитивные способности моделей без сбора огромных объемов данных и создания сложных инфраструктур.
Да, системы в этом режиме работают медленнее и обходятся дороже, но это оправдано, когда требуется высокая когнитивная нагрузка. Такие режимы особенно полезны в задачах аналитики, сложных логических выводов и принятия решений в реальном времени.
Например, при работе с финансовой аналитикой модель в режиме o1-preview может обрабатывать данные из отчетов в реальном времени, делать прогнозы с учетом большего числа факторов и анализировать длинные временные контексты. Вместо нескольких месяцев она сможет оценивать годовые тренды, что значительно увеличивает точность и полезность выводов.
Провайдеры будут активно добавлять новые удобные функции, чтобы выделяться на рынке.
Structured Outputs (ограниченная декодировка) позволяет задать модели жесткие ограничения на формат ответа. Например, модель должна вернуть JSON-объект с заданным количеством полей и четкими типами данных. OpenAI впервые [9] представила режим Structured Outputs в 2024 году вместе с gpt-4-turbo и gpt-3-turbo. С тех пор поддержка JSON стала стандартом для всех новых моделей компании.
Функция пригодится в сложных задачах, таких как custom chain-of-thought (пользовательские цепочки рассуждений), где модель должна выдавать ответы с последовательным выполнением шагов.
Работа с PDF на уровне Text + Vision. Современные модели умеют анализировать PDF-файлы, включая текст и изображения. Правда многие из них проводят анализ отдельно, часто LLM просто пропускают картинки, таблицы, графики и обращают внимание [10] только на текст. PDF-документы обычно содержат не только текст, но и визуальные данные, которые важны для понимания контекста.
Интеграция анализа текста и изображений в API открывает новые возможности для работы с договорами, отчетами и научными статьями. Например, Anthropic разбивает [11] PDF-файл на отдельные элементы: текстовые и графические, чтобы сделать анализ проще и точнее.
Системы RAG (Retrieval-Augmented Generation) + Execution Sandbox. Это возможность подключить к модели пользовательские базы данных и протестировать ее работу в контролируемой безопасной среде. «Песочница» изолирована от основной системы, поэтому даже если в сгенерированном коде есть ошибки [12] или вредоносные элементы, они не повлияют на основную среду.
Самый известный пример — OpenAI Assistants API [13]. Перед интеграцией вы собираете API-ассистента: прописываете для него инструкции, загружаете базы знаний. Затем тут же в Playground его можно протестировать, чтобы вовремя устранить неполадки и только затем внедрять в свои продукты.
Создание AGI — задача сложнее, чем разработка агентов. Она требует моделирования человеческого разума: эмоций [14], логики, креативности. Современные модели, такие как GPT, хоть и впечатляют, остаются узкоспециализированными. Они анализируют текст, а не понимают его по-настоящему. Пока AGI остается мечтами в фильмах о будущем.
Вместо AGI все больше компаний будут пытаться догнать и обогнать OpenAI. Это уже заметно по бенчмаркам, где конкуренты стремятся показать лучшие результаты. Вы тоже можете принять участие в формировании рейтинга и задать тренды LLM на 2025 год. На платформе LLMArena [4] в режиме анонимного сравнения система автоматически подберет две модели, которые вы сможете бесплатно протестировать. В честной борьбе выберите ту, которая оказалась сильнее остальных.
А каковы ваши прогнозы на 2025 год? Пишите в комментариях.
Автор: kucev
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/10645
URLs in this post:
[1] зрение: http://www.braintools.ru/article/6238
[2] память: http://www.braintools.ru/article/4140
[3] по прогнозам: https://www.goldmansachs.com/insights/articles/AI-poised-to-drive-160-increase-in-power-demand
[4] LLMArena: https://llmarena.ru/
[5] Amazon Connect Contact Lens: https://aws.amazon.com/connect/contact-lens/
[6] поведение: http://www.braintools.ru/article/9372
[7] LangChain: https://www.langchain.com/
[8] Pydantic: http://ai.pydantic.dev
[9] OpenAI впервые: https://openai.com/index/introducing-structured-outputs-in-the-api/
[10] внимание: http://www.braintools.ru/article/7595
[11] Anthropic разбивает: https://unite.ai/ru/anthropic-%D0%B7%D0%B0%D0%BF%D1%83%D1%81%D0%BA%D0%B0%D0%B5%D1%82-%D0%B2%D0%B8%D0%B7%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-PDF-%D0%B2-%D0%BF%D0%BE%D1%81%D0%BB%D0%B5%D0%B4%D0%BD%D0%B5%D0%BC-%D0%BE%D0%B1%D0%BD%D0%BE%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B8-claude-ai/
[12] ошибки: http://www.braintools.ru/article/4192
[13] OpenAI Assistants API: https://platform.openai.com/docs/assistants/tools
[14] эмоций: http://www.braintools.ru/article/9540
[15] Источник: https://habr.com/ru/articles/870002/?utm_source=habrahabr&utm_medium=rss&utm_campaign=870002
Нажмите здесь для печати.