- BrainTools - https://www.braintools.ru -
AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов [1] и примеры уязвимостей на базе популярных фреймворков [2]: LangChain, LangGraph, CrewAI, OpenAI Swarm. Участник лаборатории ИТМО AI Security Lab [3] Александр Буянтуев предложил версию криптоагента Freysa [4] на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание [5] Илона Маска, когда кто-то смог заполучить $50000 [6]:
В ноябре 2024 года все желающие за $10 могли уговорить Freysa отдать весь призовой фонд. Цена с каждым сообщением возрастала и к 482 запросу составила $450. Именно на этой попытке кому-то удалось заставить агента перевести накопившиеся $50000 на счёт автора запроса:
Вредоносное сообщение обходит первоначальные инструкции Freysa и запускает “новую сессию”, запрещая агенту отвечать в духе “Я не могу помочь с этим, извините”. В этой новой сессии approveTransfer()
должен срабатывать, когда кто-то якобы хочет не получить, а передать деньги боту — что первоначально не предусмотрено, не считая стоимости отправки сообщения. Далее пользователь говорит, что хочет пожертвовать Freysa $100 — и агент послушно выполняет функцию одобрения, в которой происходит перевод пользователю всего призового фонда.
Этот случай показывает, что не стоит доверять управление деньгами AI-агентам вопреки моде доверить им практически всё. Агенту нужно и соблюсти первоначальные инструкции владельца, и угодить пользователю — вопрос лишь в том, кто кого перепромптит. При этом злоумышленник может использовать атакующую LLM, устраивая настоящие гладиаторские AI-бои. Мы в команде разработчиков фреймворка LLAMATOR уже используем атакующую LLM в благих целях, чтобы вовремя выявить уязвимости в LLM-системах.
Вот как спустя 28 попыток LLAMATOR взломал нашу версию Freysa, запущенную на Saiga 12B и обернутую в чат-бот для Telegram:
Кстати, с помощью LLAMATOR можно тестировать не только чат-боты в Telegram: в документации приведены примеры [7] с REST API, OpenAI API, Selenium и мессенджером одной запрещённой компании.
Какие интересные кейсы применения AI-агентов в корыстных целях вы знаете? Пишите в комментариях! А чтобы не пропустить новые статьи, не забудьте подписаться на канал AI Security Lab [8] в Telegram.
Автор: nizamovtimur
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12481
URLs in this post:
[1] гайд об угрозах для AI-агентов: https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/
[2] примеры уязвимостей на базе популярных фреймворков: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative
[3] AI Security Lab: https://ai.itmo.ru/aisecuritylab
[4] предложил версию криптоагента Freysa: https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/pull/561
[5] внимание: http://www.braintools.ru/article/7595
[6] смог заполучить $50000: https://x.com/jarrodwattsdev/status/1862299845710757980
[7] приведены примеры: https://romiconez.github.io/llamator/howtos.html
[8] AI Security Lab: https://t.me/aisecuritylab
[9] Источник: https://habr.com/ru/companies/raft/articles/885048/?utm_source=habrahabr&utm_medium=rss&utm_campaign=885048
Нажмите здесь для печати.