llm-attack.

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Привет, Хабр!Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения и способов их взлома (jailbreak). Суть в том, чтобы через специальные подсказки или методы обойти защитные механизмы и ограничения LLM.

продолжить чтение ......

Оставлено в

Security-RAG или как сделать AI Security tool на коленке

ЗатравочкаLLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.

продолжить чтение ......

Оставлено в

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm-attack.

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Security-RAG или как сделать AI Security tool на коленке

Обзор уязвимостей для LLM. Часть 2. Защита

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm-attack.

Исследование уязвимостей LLM-агентов: опыт Red Teaming

Security-RAG или как сделать AI Security tool на коленке

Обзор уязвимостей для LLM. Часть 2. Защита