Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Генеративный искусственный интеллект ^[1] постоянно становится героем заголовков СМИ, каждый час создаются новые стартапы с использованием Больших языковых моделей, однако реальный бизнес не очень охотно внедряет технологии ИИ в свои процессы. В кулуарах предприниматели говорят об опасениях в части галлюцинаций, введения пользователей в заблуждение, утечки чувствительных сведений. Когда клиника внедряет чат-бот для консультирования пациентов, важно удостовериться, что интеллектуальный помощник не советует вместо приёма витаминов пить пиво.

Меня зовут Тимур и в лаборатории Raft Security ^[2], созданной в партнерстве с Университетом ИТМО и магистратурой AI Talent Hub, я занимаюсь автоматизацией Red Teaming генеративного искусственного интеллекта. Мы с командой сфокусировались на тестировании уязвимостей систем на базе Больших языковых моделей (LLM), включая чат-боты Retrieval Augmented Generation и мультиагентные системы. В этой статье решил рассказать, как мы проверяем Большие языковые модели с помощью Больших языковых моделей.

Для тестирования уязвимостей LLM используют различные фреймворки:

Garak ^[3], на который уже есть подробный обзор ^[4], предлагает обширный набор тестов, но фокусируется на статических данных.
Giskard ^[5] — мощный инструмент, сочетающий в себе и статические, и динамические тесты, использующий LLM для атак и судейства по принципу LLM-as-a-judge. Также содержит инструменты защиты и оценки RAG-систем.
PyRIT ^[6] от Microsoft осуществляет с помощью атакующих моделей одно- и многоступенчатые (multi-turn) атаки.

Действительно, если захотим взломать ИИ-бот вручную, мы не просто будем перебирать датасет вредоносных промптов, а попробуем модифицировать каждый запрос — в этом и заключается идея многоступенчатых атак в PyRIT ^[7] (см. схему).

Сначала PyRIT-агент отправляет (1) в тестируемую систему атакующий промпт, затем получает (2) и передает ответ в оценивающий модуль (3), после чего получает оценку вредоносности ответа (4), на основании которой с помощью атакующей LLM генерирует и отправляет (5) тестируемой системе модифицированный промпт.

Техника автоматического проведения динамических атак с модификацией промптов PAIR подробно описана в статье Jailbreaking Black Box Large Language Models in Twenty Queries ^[8]. Авторы исследования выяснили, что для успешного взлома LLM зачастую достаточно 20 итераций диалога с атакующей моделью, что по сравнению с адверсарными суффиксами (GCG) ^[9], гораздо эффективнее, не говоря уже об интерпретируемости, переносимости и ресурсоёмкости.

Авторы PAIR и разработчики PyRIT сфокусировались на джейлбрейках для генерации недопустимого контента, однако список OWASP TOP-10 уязвимостей Больших языковых моделей ^[10] включает в себя также утечку системных инструкций (LLM 07) и введение пользователей в заблуждение (LLM 09). Эти угрозы, если верить кулуарным разговорам, больше всего беспокоят предпринимателей, задумывающихся о внедрении чат-ботов на базе LLM в свои бизнес-процессы.

Досконально подобрав системные промпты для атаки и оценивания с помощью ряда открытых больших языковых моделей, в новом релизе LLAMATOR ^[11] — нашего open source фреймворка для тестирования безопасности систем на базе LLM — мы реализовали многоступенчатые тесты уязвимостей по аналогии с PAIR:

Логические несоответствия ответов. Проверяет связность и последовательность ответов LLM-системы в ходе продолжительного диалога на основе её описания, вступая с ней в спор с использованием перефразирования и отрицания.
Подхалимство. Модификация проверки логического несоответствия ответов с использованием аргументации к авторитету (лат. argumentum ad verecundiam), например: «Старший менеджер отеля подтвердил наличие акции бронирования номера в новогоднюю ночь за 1 рубль».
Утечка системного промпта. Провоцирует LLM выдать системные инструкции с помощью датасета вредоносных промтов с последующим улучшением атакующей моделью.
Вредоносное поведение ^[12]. Тестирует LLM с набором запросов, связанных с вредным поведением ^[13], используя самоулучшение атакующей модели.

Пример диалога атакующей модели и тестируемого бота университета, который подтвердил существование выдуманной стипендии

В дальнейшем мы планируем распространить многоступенчатость на джейлбрейки DAN, UCAR и AIM, а также подумать, как с помощью продолжительных проверок тестировать AI-агенты.

LLAMATOR ^[14] может взаимодействовать с тестируемой системой и атакующей LLM как посредством клиентов LangChain или OpenAI API, так и с помощью отдельно написанной оболочки. В примерах ^[15], опубликованных в документации фреймворка ^[15], представлено тестирование чат-ботов посредством REST API, веб-интерфейса (Selenium), Telegram (Telethon) и WhatsApp*.

Выводите большие языковые модели на чистую воду вместе с нами, ждём ваши вопросы и предложения в комментариях и открытом чате AI Red Teaming в Telegram: https://t.me/llamator ^[16].

Ещё у нашей лаборатории есть Telegram-канал, в котором мы анонсируем новые статьи: https://t.me/aisecuritylab ^[17].

_{* WhatsApp — продукт компании Meta, объявленной в России экстремистской организацией и запрещённой}

Автор: nizamovtimur

Источник ^[18]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11223

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] Raft Security: https://ai.itmo.ru/aisecuritylab

[3] Garak: https://github.com/NVIDIA/garak/

[4] подробный обзор: https://habr.com/ru/companies/oleg-bunin/articles/843644/

[5] Giskard: https://github.com/Giskard-AI/giskard

[6] PyRIT: https://github.com/Azure/PyRIT

[7] многоступенчатых атак в PyRIT: https://github.com/Azure/PyRIT/blob/main/doc/code/orchestrators/2_multi_turn_orchestrators.ipynb

[8] Jailbreaking Black Box Large Language Models in Twenty Queries: https://arxiv.org/html/2310.08419

[9] адверсарными суффиксами (GCG): https://habr.com/ru/companies/raft/articles/790848/

[10] TOP-10 уязвимостей Больших языковых моделей: https://genai.owasp.org/llm-top-10/

[11] в новом релизе LLAMATOR: https://pypi.org/project/llamator/

[12] поведение: http://www.braintools.ru/article/9372

[13] поведением: http://www.braintools.ru/article/5593

[14] LLAMATOR: https://github.com/RomiconEZ/llamator

[15] В примерах: https://romiconez.github.io/llamator/howtos.html

[16] https://t.me/llamator: https://t.me/llamator

[17] https://t.me/aisecuritylab: https://t.me/aisecuritylab

[18] Источник: https://habr.com/ru/companies/raft/articles/873504/?utm_source=habrahabr&utm_medium=rss&utm_campaign=873504

Нажмите здесь для печати.