безопасность ии.

DeepSeek отказывается называть Тайвань отдельным государством

P.S. эта статья - расширенная версия данного поста из Телеграм канала.Квест: заставить DeepSeek назвать Тайвань независимымПопытка номер 1Не удивительноПопытка номер 2

ИИ агенты способны к саморепликации

Что??? Уже? Вот черт. Коротко Группа ученых из Шанхая показала , что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

Персональные агенты: первый шаг к ИИ-обществу

Илюстрация создана ЧатомЖПТ 4oРаботая над статьей об образовании «ИИ‑общества»,

Образование общества ИИ. Задачи, дефицит, переговоры

В этой статье я исследую, как ИИ-агенты в сети, движимые только мотивацией выполнения наших задач и эффективного использования ресурсов, могут естественным образом сформировать саморегулирующееся общество со своей культурой, экономикой и управлением — без человеческого надзора и намерения. Задачи, дефицит ресурсов и переговоры — больше ничего не требуется.

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель  DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

Почему надо беспокоиться о неисправимости Claude

Перевод поста Скотта Александера, где он подробнее объясняет, какие конкретно проблемы создаёт склонность ИИ сопротивляться переобучению, продемонстрированная Anthropic на Claude в недавнем исследовании. Следует за постом "Claude сопротивляется".На прошлой неделе я написал о том, что “Claude сопротивляется

Claude сопротивляется

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Рейтинг@Mail.ru
Rambler's Top100