OpenAI GPT-4.5 mākslīgais intelekts GPT-4.5 iztur Tjūringa testu "biežāk nekā reāli cilvēki"

Pētnieki no Kalifornijas universitātes San Diego pirmo reizi demonstrēja, kā mākslīgā intelekta sistēmas iztur trīspusējo klasiskā Tjūringa testa versiju. Testu nosaucis britu matemātiķa un datorzinātnieka Alana Tjūringa vārdā. Tjūrings ieteica, ka viens no veidiem, kā novērtēt mašīnas intelektu, ir tās piedalīšanās teksta saziņā ar cilvēku, kurš vienlaikus sarunājas ar citu cilvēku, ārpus redzes lauka. Ja jautātājs nespēj noteikt, kurš ir dators un kurš cilvēks, tas nozīmē, ka mākslīgais intelekts var domāt kā cilvēks.

Konkrēti, testu veica Meta LLama 3.1-405B modeļi, OpenAI GPT-4o un GPT-4.5 modeļi, kā arī pasaulē pirmā virtuālā sarunu programma ELIZA, ko pirms aptuveni 80 gadiem izstrādāja Džozefs Veicenbaums. Starp tiem, GPT-4.5 versija tika uztverta kā vēl viens īsts cilvēks 73% gadījumu, kuriem cilvēki piedalījās testā.

Trīspusējā klasiskā Tjūringa testa laikā katrā sarunu raundā piedalījās divi cilvēki un viena mākslīgā intelekta sistēma. Cilvēki pēc sarunu rezultātiem bija aicināti noteikt, ar ko viņi sazinās - vai nu ar AI, vai ar citu īstu cilvēku. Dalībnieki saņēma divas paralēlas sarunas ar cilvēku un AI, varēja uzdot jautājumus un izmantot jebkādas stratēģijas, lai saprastu, kurš ir kurš, 5 minūtes, un pēc tam balsoja.

Pētnieki pārbaudīja katru modeli divas reizes saskaņā ar diviem pamatsistēmas scenārijiem. Pirmajā gadījumā AI bija uzdevums radīt cilvēku-iesaistītāju maldu iespaidu, ka viņi sarunājas ar īstu sarunu biedri. Otrajā gadījumā AI nebija noteiktu instrukciju, kas precīzi jādara, bet vienkārši lūdza imitēt jaunu cilvēku, kurš interesējas par interneta kultūru un lieto slengu saziņā.

Tieši otrajā scenārijā mākslīgā intelekta sistēmas darbojās labāk. Scenārijā, kur AI bija atklāti uzdevums novest īstus sarunu biedrus maldos, GPT-4.5 panākumu līmenis bija tikai 36%. Turpretī, izlikdamies par jaunu cilvēku, šis modelis veiksmīgi spēja maldināt abus īstos sarunu biedrus un demonstrēja rezultātu - 73%.

Cameron R. Jones, Benjamin K. Bergen

Meta LLama 3.1-405B AI sasniedza 56% rezultātu, kas ir ļoti labi, taču tomēr tuvāk gadījuma minēšanai. Interesanti, ka ELIZA (23%) rezultāti bija labāki nekā GPT-4o (21%) rezultāti.

"Cilvēki nespēja atšķirt cilvēkus no GPT-4.5 un LLaMa. Un 4.5 pat tika novērtēts kā cilvēks biežāk nekā īstie cilvēki!", komentē pētījuma rezultātus tā vadošais autors.Kalifornijas universitātes San Diego Valodas un atziņas laboratorijas pētnieks Kamerons Džonss.

Neskatoties uz to, ka pats Tjūringa tests ir ievērojami novecojis, lai reāli novērtētu mūsdienu mākslīgā intelekta sistēmu intelektuālās spējas, šis pētījums spilgti parāda, kā progresīvas AI sistēmas, kas apmāca uz lielu cilvēku teksta skaitu, ir iemācījušās mūs realistiski atdarināt. Pat ja mākslīgais intelekts nesaprot jautājuma būtību, tas jau spēj sniegt pietiekami ticamu atbildes versiju un likt mums patiesi noticēt, ka pirms mums ir cilvēks.

"Es domāju, ka rezultāti sniedz vairāk pierādījumu tam, ka AI var aizvietot cilvēkus īsa laika saziņas situācijās un neviens to nepamanīs. Tas potenciāli var novest pie darba vietu automatizācijas, sociālās inženierijas procesu uzlabojumiem un kopējā sabiedrības apvērsuma," pauž Kamerons Džonss.

Pašreiz veiktais pētījums vēl gaida recenzēšanu.

Avots: Futurism