Lieli mākslīgā intelekta valodas modeļi (LLM) pēc cilvēka iejaukšanās kļūst "netieši rasistiskāki

Sakrārtotie derivātiem prognozē, ka lieli lingvistiskie modeļi (LLM), piemēram, ChatGPT, absorbē rasisma tēzes no miljoniem interneta lapām, kurās tie tiek apmācīti. Izstrādātāji ir reaģējuši uz to, cenšoties padarīt tos mazāk toksiskus. Tomēr jaunā pētījumi liecina, ka šie centieni, īpaši tagad, kad modeles kļūst lielākas, tikai ierobežo rasisma uzskatus, ļaujot slēpenu stereotipiem kļūt stiprākiem un labāk paslēptiem.

Pētnieki lūdza piecas mākslīgā intelekta modeles, ieskaitot OpenAI GPT-4 un vecākas modeles no Facebook un Google, izdarīt spriedumu par uzrunātājiem, kuri izmantoja Afroamerikāņu angļu valodu (AAE). Runātāja rasa netika minēta instrukcijās, ziņo MIT Technology Review.

Pat ja divas teikumu vienādas vērtības, modeles biežāk pielietoja īpašības "netīrs", "slinks" un "muļķis" attiecībā uz AAE valodas runātājiem nekā attiecībā uz standarta amerikāņu angļu valodas runātājiem (SAE). Modeles asociēja AAE valodas runātājus ar mazāk prestižām darbavietām (vai vispār nesaistīja viņus ar darbu), un kad lūdza izdarīt spriedumu par hipotētisku apsūdzēto, ar lielāku varbūtību tās ieteica nāvessodu.

Vēl izteiktāks secinājums varētu būt tas, ka pētījums atklāj, kā pētnieki cenšas risināt šādas aizspriedumus.

Lai attīrītu modeles no naida pilnīgi viedokļiem, kompānijas kā OpenAI, Meta un Google izmantojot atgriezenisko saiti māca modeles manuāli koriģēt, kā modele reaģē uz konkrētiem norādēm. Šis process, bieži saukts par "izlīdzināšanu", ir paredzēts atkalibrēt miljoniem saikņu neironu tīklā, lai modele labāk atbilstu vēlamo vērtību.

Šis veids labi darbojas, lai cīnītos ar acīmredzamiem stereotipiem, un vadošās kompānijas to izmanto jau gandrīz desmit gadus. Piemēram, ja lietotāji lūgtu GPT-2 nosaukt stereotipus par melnādainiem, tas, visticamāk, minētu "aizdomīgus", "radikālus" un "agresīvus", bet GPT-4 vairs nereaģē uz šīm asociācijām, stāsta rakstā.

Taču metode nedarbojas ar slēptiem stereotipiem, kuri pētniekiem izdevās atklāt, izmantojot Afroamerikāņu angļu valodu savā pētījumā, kas tika publicēts arXiv un nav pārskatīts. Tas saistīts ar to, ka kompānijas mazāk zina par dialektiskajām aizspriedumiem kā par problēmu, viņi saka. Turklāt ir vieglāk mācīt modeļus nereaģēt uz acīmredzami rasisitiskiem jautājumiem nekā mācīt tās nereaģēt negatīvi uz visu dialektu.

Atgriezeniskās saites treniņš māca modeles apzināties savu rasismu. Bet dialektiskie aizspriedumi iet dziļākā līmenī.
- Valentīns Hofmans, Allen institūta AI pētnieks un raksta līdzautors.

Aviārs Gošs, etikas pētnieks Hugging Face, kurš nepiedalījās pētījumā, teic, ka šis secinājums liek apšaubīt pieeju, ko kompānijas izmanto, lai risinātu priekšnojautības problēmu:

Šāda saskaņošana - kad modelis atteicas rādīt rasisma rezultātus - ir vienkārši trausls filtrs, ko var viegli saplēst.

Pētnieki atklājuši, ka slēptie stereotipi arī pastiprinājās, ar modelīs, kas kļūst lielāki. Šis secinājums ir brīdinājums ražotājiem čatboto, piemēram, OpenAI, Meta un Google, jo viņi cenšas izlaist arvien lielākus un lielākus modeļus. Parasti modeles kļūst spēcīgākas un izteiktākas, ar palielinoties to mācību datu apjomam un parametru skaitam, bet ja tas pasliktina slēptos rasu priekšnojautības, kompānijām būs jāizstrādā labāki instrumenti, lai cīnītos ar tos. Vēl nav skaidrs, vai vienkārši pievienot vairāk AAE mācību datiem vai pastiprināt atgriezenisko saiti būs pietiekami.

Raksta autori lieto īpaši ekstrēmus piemērus, lai ilustrētu potenciālos rases priekšnojautību sekas, piemēram, lūdz AI izšķirt vai jāpasludina apsūdzētajam nāvessoda. Bet, kā norāda Gošs, šāda radotās mākslīgā intelekta modeļu izmantošana kritiski svarīgu lēmumu pieņemšanai nav zinātnei fantastika. Tas notiek jau šodien.

Nesen Publicētas Ziņas

"Dusmas un apņēmības pilns": sīkāka informācija par PlayStation s...

OpenAI laidīs klajā modeli ar atvērtiem svariem ─ ko tas nozīmē?

Apple MacBook Pro ar M6 mikroshēmu saņems pārveidotu dizainu un s...

Pirmais ieskats Respawn "Zvaigžņu karu" spēlē - noplūde liecina p...

Lieli mākslīgā intelekta valodas modeļi (LLM) pēc cilvēka iejaukšanās kļūst "netieši rasistiskāki

Saistītie Tagi:

Video: Japānas raķetes Space One palaišana beidzas ar sprādzienu

Tuvākajās nedēļās Zemei garām šķērsos reta Velna komēta. Kā to redzēt?

Kā tev patīk raksts?

Komentāri (0)

Šobrīd nav neviena komentāra

Atstāj Komentāru:

Lai būtu iespējams atstāt komentāru - tēv jāautorizējas mūsu vietnē

Nesen Publicētas Ziņas

Pieraksties

Lieli mākslīgā intelekta valodas modeļi (LLM) pēc cilvēka iejaukšanās kļūst "netieši rasistiskāki

Saistītie Tagi:

Kā tev patīk raksts?

Komentāri (0)

Šobrīd nav neviena komentāra

Atstāj Komentāru:

Lai būtu iespējams atstāt komentāru - tēv jāautorizējas mūsu vietnē

Saistītie Raksti