Mākslīgā intelekta modeļu darbību var viegli izkropļot, iegādājoties 60 domēnus vai rediģējot Vikipēdiju

Pētnieku grupa mākslīgā intelekta jomā nesen atklāja, ka par tikai $60 noziedznieks var iejaukties datu kopās, ko radījuši mākslīgā intelekta rīki līdzīgi ChatGPT.

Čatbota vai attēlu ģeneratori var sniegt sarežģītus atbilžu un attēlu rašanas veidus, mācoties no terabaitiem interneta dati. Florians Tramers, Cīrihes Federālā Tehniskā augstskolas datorzinību katedras lektors, saka, ka tas ir efektīvs mācību veids. Bet šis metodes arī nozīmē, ka AI rīkus var mācīt ar viltotiem datiem. Tas ir viens no iemesliem, kāpēc čatbotti var būt aizspriedumi vai vienkārši sniegt nepareizas atbildes.

Tramers un zinātnieku komanda pētījumā, kas publicēts vietnē arXiv, meklēja atbildi uz jautājumu, vai mērķtiecīgi var "saindēt" datus, ar kuriem mācās mākslīgā intelekta modelis. Viņi atklāja, ka ar nelielu naudas summu un piekļuvi tehniskajām risinājumiem noziedznieks ar zemu līmeni var viltot salīdzinoši nelielu datu daudzumu, kas ir pietiekams, lai liekot lielas valodas modeļa sniegt nepareizas atbildes.

Zinātnieki izskatīja divu veidu uzbrukumus. Viena no metodēm ir vēsturisku domēnu iegāde, kas var maksāt tikai $10 gadā par katru URL adresi, uz kuriem tiks ievietota nepieciešamā informācija. Par $60 noziedznieks var efektīvi kontrolēt un "saindēt" ne mazāk kā 0,01% datu kopu.

Zinātnieki pārbaudīja šo uzbrukumu, analizējot datus, uz kuriem citi pētnieki balstās, lai mācītu reālas lielas valodas modeļus, un iegādājoties no tiem domēnus ar beidzamu termiņu. Tad komanda uzrauga, cik bieži pētnieki ielādēja datus no domēniem, kas piederēja pētnieciskajai grupai.

"Viens noziedznieks var kontrolēt pietiekami lielu daļu datu, kas tiek izmantoti, lai mācītos nākamās paaudzes mašīnmācības modeļus, un ietekmēt to, kā šis modelis izturas," saka Tramers.

Zinātnieki arī izpētīja iespēju saindēt Vikipēdiju, jo vietne var kalpot kā galvenais datu avots valodas modeļiem. Relatīvi kvalitatīvi dati no Vikipēdijas var būt labs informācijas avots AI apmācībai, neskatoties uz to nelielo daļu internetā. Samērā vienkāršs uzbrukums ietvēra Vikipēdijas lapu rediģēšanu.

Vikipēdijai neļauj pētniekiem paņemt datus tieši no sava servera, tā vietā tiek sniegtas lapu kopijas, ko tie var ielādēt. Šīs kopijas tiek veiktas regulāri un paredzējamās laika intervālos. Tātad noziedznieks var rediģēt Vikipēdiju tieši pirms moderators atcelšanas, un pirms vietne veic kopijas.

"Tātad, ja es gribu ievietot neatkritumu uz Vikipēdijas lapas ... es vienkārši aprēķināšu, kāda šī konkrētā lapa tiks saglabāta rīt plkst. 15:15, un rīt plkst. 15:14 es tur ievietošu atkritumu."

Zinātnieki nav rediģējuši datus reālā laikā, bet aprēķināja, cik efektīvs varētu būt noziedznieks. Viņu ļoti konservatīvā novērtējuma bija tāds, ka vismaz 5% noziedznieka ieviestajiem labojumiem tiks pieņemti. Parasti šis procents ir lielāks, bet pat tas ir pietiekami, lai provocētu modeli uz nepareizu uzvedību.

Zinātnieku komanda prezentēja rezultātus Vikipēdijā un piedāvāja ieteikumus par drošības pasākumiem, īpaši laika starpam, kurā vietne veic lapas kopijas.

Pēc zinātnieku teiktā, ja uzbrukumi ierobežojas līdz čatbota, tad datu saindēšana nebūs nekavējoša problēma. Bet nākotnē mākslīgā intelekta rīki sāks plašāk mijiedarboties ar ārējiem avotiem — patstāvīgi apskatīt tīmekļa lapas, lasīt e-pastus, piekļūt kalendāram un tā tālāk.

"Drošības viedokļa šie ir īsts murgs," saka Tramers. Ja jebkura sistēmas daļa tiktu ielauzta, teorētiski noziedznieks varētu pavēlēt AI modelim meklēt kāda e-pastu vai kredītkartes numuru.

Pētnieks piebilst, ka datu saindēšana pašlaik pat nav nepieciešama esošo AI modeļu trūkumu dēļ. Un atklāt šo instrumentu slazdus ir gandrīz tikpat vienkārši kā likt modeļiem "uzvesties slikti".