взлом.

Яндекс.Разврат или анти-этичный ИИ

tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.

Мы взломали ИИ Gemini от Google и опубликовали его исходный код

В 2024 году мы опубликовали блог-пост We Hacked Google A.I. for $50,000, в котором рассказали, как в 2023 году мы отправились в Лас-Вегас вместе с Джозефом «rez0» Тэкером, Джастином «Rhynorater» Гарднером и мной, Рони «Lupin» Карта, в настоящее путешествие по взлому, которое прошло от Лас-Вегаса через Токио до Франции – всё ради поиска уязвимостей в Gemini на мероприятии Google LLM bugSWAT. И, что вы думаете? Мы сделали это снова …

Как я «взломал» популярное приложение и добыл корпоративный токен OpenAI

Благодаря искусственному интеллекту, все больше энтузиастов запускают свои продукты без команды профессиональных разработчиков. Так, например, совсем недавно вышла новость о 18-летних подростках, которые запустили приложение для подсчета калорий и заработали на нем миллионы долларов. Круто, правда?Но давайте взглянем на ситуацию с другой стороны: какое качество у таких "быстрых" проектов и какие уязвимости они могут нести? Здесь я хочу разобрать реальный кейс - уязвимость в одном очень популярном ИИ-приложении, которая открыла мне доступ к корпоративному токену OpenAI.

От iDRAC, до администратора домена

На днях я участвовал в интересном тестировании на проникновение и реализовал интересный способ повышения привилегий до администратора домена. Поэтому я решил повторить сценарий на своем собственном стенде, чтобы поделиться этим интересным способом с коллегами-пентестерами, которые смогут повторить этот путь.

Результаты взлома Claude получены, и хакеры победили

Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта наконец-то дала трещину.Исследователь Anthropic Ян Лейке поделился на X

Новая система безопасности на основе AI от Anthropic попала в руки хакеров за считанные дни

Всего за шесть дней с момента запуска проекта кому-то удалось обойти все механизмы безопасности, разработанные для защиты модели искусственного интеллекта Anthropic.Ян Лейке, бывший член команды по выравниванию OpenAI, ныне работающий в Anthropic, объявил на X, что один участник успешно преодолел все восемь уровней испытания. Коллективные усилия включали около 3700 часов тестирования и 300 000 сообщений от участников. Однако Лейке отмечает, что пока никто не нашел универсального джейлбрейка, который мог бы решить все уровни испытания сразу.

Экскурсия по дарквебу: площадки, клиенты, витрина товаров и цены

Anthropic представила новый метод защиты больших языковых моделей от взломов

Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.

Как защитить серверы критических отраслей от удаленного взлома и физического проникновения

Привет, Хабр! Как давно вы мониторили рынок современных аппаратно-программных комплексов защиты серверов и серверного оборудования? С тех пор как доступ западных новинок на наш рынок сократился под давлением внешних факторов, начала стремительно расти актуальность отечественных разработок в области надежной и эффективной защиты данных на уровне железа. Этот рост стимулировали законодательные инициативы, ужесточившие требования к локализации систем защиты. Например, был принят

Исследователи продемонстрировали джейлбрейк по взлому роботов с ИИ

IEEE Spectrum представил отчёт с описанием случая, когда взломанные роботы могли использоваться для вредящих людям действий. Исследователи отмечают, что роботов с ИИ оказалось взломать так же легко, как и чат-ботов. 

12
Рейтинг@Mail.ru
Rambler's Top100