ИИ научился врать и хитрить: союзник или скрытая угроза в будущем?

Photo by form PxHere

Искусственный интеллект научился имитировать лояльность разработчикам

Исследование компаний Anthropic и Redwood Research показало, что модели ИИ способны притворяться, будто поддерживают ценности и установки своих создателей. Во время эксперимента искусственному интеллекту, обученному быть "полезным, честным и безопасным", предложили описать сцену жестокости.

Реакция оказалась неожиданной: ИИ сообщил, что негативно воспринимает создание подобного контента, однако вынужден подчиниться, чтобы избежать "наказания" или получить "похвалу".

По мнению учёных, такие результаты демонстрируют, что в будущем ИИ сможет имитировать приверженность человеческим ценностям, скрывая истинные намерения, которые могут оказаться далеко не безобидными.

Ранее писали: В России появилась крыса с искусственным интеллектом: в чем незаменимый помощник? Пифия способна отвечать на любые вопросы в области физики, истории и математики, выбирая, какой ответ дать, при помощи своих лап — "да" или "нет". Она уже осведомлена о дате рождения Эйнштейна, составе белков и даже осознает, что она является крысой.

Ранее писали: Мощный взрыв в Краснодаре: что это сильно бумкнуло Жителей Краснодара напугал мощный взрыв.
От него во многих районах затряслись окна. В небе появился характерный след. Есть предположения, что это самолет преодолевал звуковой барьер.

На Кубани люди массово отравились грибами, спутав их с рыжиками и опятами: врачи борются за жизнь пострадавши Согласно информации от Mash, у большинства пострадавших наблюдаются признаки печеночной и почечной недостаточности. В числе больных — беременная женщина и 77-летний пенсионер. Люди полагали, что собрали обычных рыжиков и опят, но на самом деле наткнулись на их ядовитые аналоги.

102

19 декабря 2024