jailbreak.

DeepSeek отказывается называть Тайвань отдельным государством

P.S. эта статья - расширенная версия данного поста из Телеграм канала.Квест: заставить DeepSeek назвать Тайвань независимымПопытка номер 1Не удивительноПопытка номер 2

продолжить чтение ......

Оставлено в

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Современные методы джейлбрейков

продолжить чтение ......

Оставлено в

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

Салют, Хабр! Я Рябинин Виктор, в Positive Technologies вместе с командой мы анализируем безопасность блокчейнов и смарт-контрактов, исследуем уязвимости и создаём инструменты для их обнаружения.В последние годы мы наблюдаем активный рост популярности

продолжить чтение ......

Оставлено в

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.

продолжить чтение ......

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.

DeepSeek отказывается называть Тайвань отдельным государством

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

Обзор уязвимостей для LLM. Часть 2. Защита

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.

DeepSeek отказывается называть Тайвань отдельным государством

Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом

Безопасность AI-агентов в Web3. Часть 1: архитектура, уязвимости и старые добрые джейлбрейки

Обзор уязвимостей для LLM. Часть 2. Защита