Результаты взлома Claude получены, и хакеры победили. anthropic.. anthropic. Claude.. anthropic. Claude. Блог компании BotHub.. anthropic. Claude. Блог компании BotHub. взлом.. anthropic. Claude. Блог компании BotHub. взлом. искусственный интеллект.

Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта наконец-то дала трещину.

Результаты взлома Claude получены, и хакеры победили - 1

Исследователь Anthropic Ян Лейке поделился на X, что четыре участника успешно прошли все уровни испытаний. Один участник сумел найти универсальный джейлбрейк — по сути, мастер-ключ, чтобы обойти защитные ограждения Клода. Anthropic выплачивает победителям в общей сложности 55 000 долларов.

Задача показала, что классификаторы безопасности, хотя и полезны, сами по себе не являются достаточной защитой, говорит Лейке. Это соответствует тому, что мы узнали из других недавних исследований безопасности AI — редко бывает универсальное решение, а вероятностный характер этих моделей делает их защиту особенно сложной.

Лейке подчеркивает, что по мере того, как возможности моделей становятся все более совершенными, устойчивость к взлому становится ключевым требованием безопасности для предотвращения ненадлежащего использования, связанного с химическими, биологическими, радиоактивными и ядерными рисками.

Источник

Автор: dilnaz_04

Источник