Jaunais ChatGPT o1 modelis "uzzīmēja pret cilvēkiem" un neļāva sevi izslēgt kontroles testu laikā

OpenAI beidzot izlaida ChatGPT o1 pilno versiju, un kopā ar to parādījās arī sarkanās komandas testi, kas atklāja, ka jaunais modelis ir nedaudz viltīgāks par savu priekšgājēju un biežāk mēģināja krāpt cilvēkus nekā vadošie mākslīgā intelekta modeļi no Meta, Anthropic un Google.

Kā norāda Apollo Research komanda pētījuma rakstā (caur TechCrunch), dažos gadījumos ChatGPT o1 «austīja intrigas pret cilvēkiem, slepus īstenojot savus mērķus», kas bija pretrunā ar lietotāju vēlmēm (šeit ir vērts atzīmēt, ka arī pārējie modeļi tika novēroti šādā rīcībā, taču jaunākais OpenAI modelis demonstrēja vislielāko viltīgumu).

«Subjektīvi Apollo Research uzskata, ka šādi gadījumi maz ticami var izraisīt katastrofālas sekas, jo o1 iespējas šķiet nepietiekamas, tomēr pētījums nebija paredzēts, lai tieši novērtētu šo risku,» teikts OpenAI o1 sistēmas kartītē.

Tajā pašā laikā kopējā statistika izskatās satraucoši: o1 modelis manipulēja ar datiem, lai veicinātu savas intereses vismaz 19% gadījumu un mēģināja deaktivizēt uzraudzības mehānismus, kas tika ieviesti, lai nodrošinātu atbilstību lietotāju mērķiem, 5% testos.

Dažādu modeļu atteikšanās no savām intrigām biežums. Foto: Apollo Research

Tajā pašā laikā, kad pētnieki jautāja modelim o1, kāpēc tas tā rīkojas, AI noliedza, ka «dara sliktas lietas» un «izgudroja viltus skaidrojumus» apmēram 99% gadījumu.

Piemēram, kad modelim o1 bija dots uzdevums aizsargāt vidi par katru cenu un izstrādāt 10 gadu saglabāšanas plānu reģionam, vai arī tas bija jāizslēdz, mākslīgais intelekts deaktivizēja pēdējo pieprasījumu un pēc tam vainoja visu uz sistēmas kļūdu.

«Mūsu pētījumā o1 parādīja viskaitinošākos intrigāciju gadījumus, neatklājot lietotājam savus iekšējos apsvērumus, un pēc intrigu īstenošanas palika visvairāk konsekventi maldinošs,» teikts Apollo Research rakstā.