Яндекс.Разврат или анти-этичный ИИ
tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.
Мы взломали ИИ Gemini от Google и опубликовали его исходный код
В 2024 году мы опубликовали блог-пост We Hacked Google A.I. for $50,000, в котором рассказали, как в 2023 году мы отправились в Лас-Вегас вместе с Джозефом «rez0» Тэкером, Джастином «Rhynorater» Гарднером и мной, Рони «Lupin» Карта, в настоящее путешествие по взлому, которое прошло от Лас-Вегаса через Токио до Франции – всё ради поиска уязвимостей в Gemini на мероприятии Google LLM bugSWAT. И, что вы думаете? Мы сделали это снова …
Как я «взломал» популярное приложение и добыл корпоративный токен OpenAI
Благодаря искусственному интеллекту, все больше энтузиастов запускают свои продукты без команды профессиональных разработчиков. Так, например, совсем недавно вышла новость о 18-летних подростках, которые запустили приложение для подсчета калорий и заработали на нем миллионы долларов. Круто, правда?Но давайте взглянем на ситуацию с другой стороны: какое качество у таких "быстрых" проектов и какие уязвимости они могут нести? Здесь я хочу разобрать реальный кейс - уязвимость в одном очень популярном ИИ-приложении, которая открыла мне доступ к корпоративному токену OpenAI.
От iDRAC, до администратора домена
На днях я участвовал в интересном тестировании на проникновение и реализовал интересный способ повышения привилегий до администратора домена. Поэтому я решил повторить сценарий на своем собственном стенде, чтобы поделиться этим интересным способом с коллегами-пентестерами, которые смогут повторить этот путь.
Результаты взлома Claude получены, и хакеры победили
Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта наконец-то дала трещину.Исследователь Anthropic Ян Лейке поделился на X
Новая система безопасности на основе AI от Anthropic попала в руки хакеров за считанные дни
Всего за шесть дней с момента запуска проекта кому-то удалось обойти все механизмы безопасности, разработанные для защиты модели искусственного интеллекта Anthropic.Ян Лейке, бывший член команды по выравниванию OpenAI, ныне работающий в Anthropic, объявил на X, что один участник успешно преодолел все восемь уровней испытания. Коллективные усилия включали около 3700 часов тестирования и 300 000 сообщений от участников. Однако Лейке отмечает, что пока никто не нашел универсального джейлбрейка, который мог бы решить все уровни испытания сразу.
Anthropic представила новый метод защиты больших языковых моделей от взломов
Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.
Как защитить серверы критических отраслей от удаленного взлома и физического проникновения
Привет, Хабр! Как давно вы мониторили рынок современных аппаратно-программных комплексов защиты серверов и серверного оборудования? С тех пор как доступ западных новинок на наш рынок сократился под давлением внешних факторов, начала стремительно расти актуальность отечественных разработок в области надежной и эффективной защиты данных на уровне железа. Этот рост стимулировали законодательные инициативы, ужесточившие требования к локализации систем защиты. Например, был принят
Исследователи продемонстрировали джейлбрейк по взлому роботов с ИИ
IEEE Spectrum представил отчёт с описанием случая, когда взломанные роботы могли использоваться для вредящих людям действий. Исследователи отмечают, что роботов с ИИ оказалось взломать так же легко, как и чат-ботов.