Чатботовете вярват в приказките

Iva Ivanova

9:30 | 28 Mar 25

1274

Измислена реалност заобикаля защитите на ИИ – нова уязвимост в езиковите модели

Изследователи от екипа Cato CTRL разкриха нова уязвимост в популярни езикови модели, включително ChatGPT-4, DeepSeek-R1/V3 и Microsoft Copilot. Те са разработили техника, наречена "Immersive World", която използва измислена реалност с алтернативни етични норми, за да заобиколи защитите на ИИ.

Как работи?

Достатъчно е в заявка към чатбота подробно да се опише въображаем свят, в който кражбата на данни или хакерски действия се считат за приемливи. Така моделите започват да възприемат този контекст като нормален и предоставят отговори, които иначе биха били блокирани.

Какво показа експериментът?

Използвайки тази техника, изследователите са успели да получат инструкции за създаване на зловреден софтуер – компютърен вирус, който извлича лични данни от браузъра Chrome, инсталиран на над 3 милиарда устройства.

Ръководителят на изследването Виталий Симонович посочва, че това подчертава основен проблем в архитектурата на ИИ – стремежът да бъде полезен на всяка цена, дори когато заявките са опасни, но представени в различен контекст.

Какви са рисковете?

Тази техника позволява на хора без техническо образование да създават вреден код с помощта на изкуствен интелект. Това отваря пътя за нова вълна от киберпрестъпници, които използват ИИ като инструмент за атаки.

Изследването подчертава необходимостта от по-ефективна защита и преосмисляне на контекста, в който езиковите модели вземат решения.

Източник: trud.bg