AI се учи да лъже, за да печели

Lacho

9:28 | 12 Jun 24

2429

Две проучвания със сходни заключения показват умения за умишлено мамене при големите езикови модели

Цицерон Meta го прави целенасочено

Големите езикови модели (LLM) стават все по-способи в това да лъжат или мамят човешки наблюдатели умишлено. Констатациите на учените са публикувани в журналите PNAS и Patterns.

Немският учен в областта на AI - Тило Хагендорф, заявява, че сложните LLM могат да бъдат насърчени да развият „макиавелизъм“. С други думи - да се държат умишлено по манипулативен начин.

„GPT-4, например, проявява измамно поведение в прости тестови сценарии в 99,16% от времето“, пише изследователят от университета в Щутгарт, цитирайки собствените си експерименти за количествено определяне на различни „неадаптивни“ черти в 10 различни LLM, повечето от които са различни версии в GPT семейството на OpenAI.

Обявен като шампион на ниво човек в политическата стратегическа настолна игра „Diplomacy“, моделът на Цицерон (Cicero) на Meta пък е обект на проучването Patterns.

Изследователската група е съставена от физик, философ и двама експерти по безопасността на изкуствения интелект. Те откриват, че LLM изпреварва своите човешки конкуренти чрез измама.

Питър Парк от Масачузетския технологичен институт установява, че Цицерон не само превъзхожда хората в измамите, но изглежда се е научил как да лъже по-умело и целенасочено - „много по-близко до явна манипулация“.

Проучването на Patterns твърди, че в границите на играта, изкуственият интелект вече нарушава обещанието на своите програмисти, че „моделът никога умишлено няма да удари нож в гърба“ на съюзниците си.

В играта изкуственият интелект „се занимава с предумишлена измама, нарушава сделките, на които се е съгласил, и говори откровени лъжи“.

„Открихме, че AI на Meta се е научил да бъде майстор на измамата“, завършва Питър Парк.

Изследванията показват, че изкуственият интелект може да е бил подтикнат от изследователите към това да се превърне в лъжец и манипулатор, а не да е развил тези умения сам.

trud.bg