промпт-инъекции.

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в самом конце от DeepSeek.

продолжить чтение ......

Оставлено в

Яндекс.Разврат или анти-этичный ИИ

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

продолжить чтение ......

Оставлено в

Security-RAG или как сделать AI Security tool на коленке

ЗатравочкаLLM-ки и LLM-агенты продолжают наводить шум. статьи про то как сделать очередной RAG или Агента продолжают клепаться (да блин даже мы одна из этих статей), huggingface выпускают smolagents, квантизация позволяет дойти LLM-кам до простых работяг и обывателей, давая им возможность в них потыкаться в той же LM studio или других приложениях.

продолжить чтение ......

Оставлено в

Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Генеративный искусственный интеллект постоянно становится героем заголовков СМИ, каждый час создаются новые стартапы с использованием Больших языковых моделей, однако реальный бизнес не очень охотно внедряет технологии ИИ в свои процессы. В кулуарах предприниматели говорят об опасениях в части галлюцинаций, введения пользователей в заблуждение, утечки чувствительных сведений. Когда клиника внедряет чат-бот для консультирования пациентов, важно удостовериться, что интеллектуальный помощник не советует вместо приёма витаминов пить пиво.Привет, Хабр! Меня зовут Тимур и в лаборатории

продолжить чтение ......

Оставлено в

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.

продолжить чтение ......

Оставлено в

Обзор уязвимостей для LLM. Часть 1. Атака

Большие языковые модели где только не применяют: генерируют внешний вид автомобилей, домов и кораблей, саммаризируют круглые столы и конференции, придумывают тезисы к статьям, рассылкам и презентациям. Но при всех «плюшках» от внедрения ИИ, не стоит забывать про безопасность. Большие языковые модели атакуют разнообразными изощрёнными способами. В топе новостей о нейросетях — многомиллионные инвестиции в средства защиты от промпт-инъекций. Поэтому поговорим о том, какие угрозы существуют и почему инвесторы платят большие деньги за создание таких бизнесов. А во второй части статьи расскажу, как от них защищаться.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

промпт-инъекции.

GigaHeisenberg или преступный ИИ

Яндекс.Разврат или анти-этичный ИИ

Security-RAG или как сделать AI Security tool на коленке

Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Обзор уязвимостей для LLM. Часть 2. Защита

Обзор уязвимостей для LLM. Часть 1. Атака

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

промпт-инъекции.

GigaHeisenberg или преступный ИИ

Яндекс.Разврат или анти-этичный ИИ

Security-RAG или как сделать AI Security tool на коленке

Выводим Большие языковые модели на чистую воду с помощью… Больших языковых моделей

Обзор уязвимостей для LLM. Часть 2. Защита

Обзор уязвимостей для LLM. Часть 1. Атака