Результаты взлома Claude получены, и хакеры победили

Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта ^[1] наконец-то дала трещину.

Исследователь Anthropic Ян Лейке поделился на X ^[2], что четыре участника успешно прошли все уровни испытаний. Один участник сумел найти универсальный джейлбрейк — по сути, мастер-ключ, чтобы обойти защитные ограждения Клода. Anthropic выплачивает победителям в общей сложности 55 000 долларов.

Задача показала, что классификаторы безопасности, хотя и полезны, сами по себе не являются достаточной защитой, говорит Лейке. Это соответствует тому, что мы узнали из других недавних исследований безопасности AI — редко бывает универсальное решение, а вероятностный характер этих моделей делает их защиту особенно сложной.

Лейке подчеркивает, что по мере того, как возможности моделей становятся все более совершенными, устойчивость к взлому становится ключевым требованием безопасности для предотвращения ненадлежащего использования, связанного с химическими, биологическими, радиоактивными и ядерными рисками.

Источник ^[3]

Автор: dilnaz_04

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12246

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] Исследователь Anthropic Ян Лейке поделился на X: https://x.com/janleike/status/1890141865955278916

[3] Источник: https://the-decoder.com/claude-jailbreak-results-are-in-and-the-hackers-won/

[4] Источник: https://habr.com/ru/companies/bothub/news/882898/?utm_source=habrahabr&utm_medium=rss&utm_campaign=882898

Нажмите здесь для печати.