Две проучвания със сходни заключения показват умения за умишлено мамене при големите езикови модели
Цицерон Meta го прави целенасочено
Големите езикови модели (LLM) стават все по-способи в това да лъжат или мамят човешки наблюдатели умишлено. Констатациите на учените са публикувани в журналите PNAS и Patterns.
Немският учен в областта на AI - Тило Хагендорф, заявява, че сложните LLM могат да бъдат насърчени да развият „макиавелизъм“. С други думи - да се държат умишлено по манипулативен начин.
„GPT-4, например, проявява измамно поведение в прости тестови сценарии в 99,16% от времето“, пише изследователят от университета в Щутгарт, цитирайки собствените си експерименти за количествено определяне на различни „неадаптивни“ черти в 10 различни LLM, повечето от които са различни версии в GPT семейството на OpenAI.
Обявен като шампион на ниво човек в политическата стратегическа настолна игра „Diplomacy“, моделът на Цицерон (Cicero) на Meta пък е обект на проучването Patterns.
Изследователската група е съставена от физик, философ и двама експерти по безопасността на изкуствения интелект. Те откриват, че LLM изпреварва своите човешки конкуренти чрез измама.
Питър Парк от Масачузетския технологичен институт установява, че Цицерон не само превъзхожда хората в измамите, но изглежда се е научил как да лъже по-умело и целенасочено - „много по-близко до явна манипулация“.
Проучването на Patterns твърди, че в границите на играта, изкуственият интелект вече нарушава обещанието на своите програмисти, че „моделът никога умишлено няма да удари нож в гърба“ на съюзниците си.
В играта изкуственият интелект „се занимава с предумишлена измама, нарушава сделките, на които се е съгласил, и говори откровени лъжи“.
„Открихме, че AI на Meta се е научил да бъде майстор на измамата“, завършва Питър Парк.
Изследванията показват, че изкуственият интелект може да е бил подтикнат от изследователите към това да се превърне в лъжец и манипулатор, а не да е развил тези умения сам.
trud.bg
Чичо
5 months before
А, не бе!
Коментирай