- BrainTools - https://www.braintools.ru -
Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта [1] наконец-то дала трещину.

Исследователь Anthropic Ян Лейке поделился на X [2], что четыре участника успешно прошли все уровни испытаний. Один участник сумел найти универсальный джейлбрейк — по сути, мастер-ключ, чтобы обойти защитные ограждения Клода. Anthropic выплачивает победителям в общей сложности 55 000 долларов.
Задача показала, что классификаторы безопасности, хотя и полезны, сами по себе не являются достаточной защитой, говорит Лейке. Это соответствует тому, что мы узнали из других недавних исследований безопасности AI — редко бывает универсальное решение, а вероятностный характер этих моделей делает их защиту особенно сложной.
Лейке подчеркивает, что по мере того, как возможности моделей становятся все более совершенными, устойчивость к взлому становится ключевым требованием безопасности для предотвращения ненадлежащего использования, связанного с химическими, биологическими, радиоактивными и ядерными рисками.
Источник [3]
Автор: dilnaz_04
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12246
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] Исследователь Anthropic Ян Лейке поделился на X: https://x.com/janleike/status/1890141865955278916
[3] Источник: https://the-decoder.com/claude-jailbreak-results-are-in-and-the-hackers-won/
[4] Источник: https://habr.com/ru/companies/bothub/news/882898/?utm_source=habrahabr&utm_medium=rss&utm_campaign=882898
Нажмите здесь для печати.