Google DeepMind un Stenfordas universitāte ir izstrādājušas mākslīgā intelekta datu validācijas sistēmu - tā labo 76% kļūdainu atbilžu.

Viens no lielākajiem trūkumiem mākslīgā intelekta bāzētajiem tērzētbotiem ir tā sauktie "halucinācijas", kad AI izdomā nepatiesu informāciju, citiem vārdiem sakot, melo. Daži eksperti saka, ka tas ir viens no interesantiem AI īpašībām un varētu būt noderīgs ģeneratīvajiem modeļiem, kas radījusi attēlus un video. Bet ne runas modeļiem, kas atbild uz lietotāju jautājumiem, sagaidot precīzus dati.

Google DeepMind laboratorija un Stanfordas universitāte šķiet ir atraduši veidu, kā atrisināt šo problēmu. Pētnieki izstrādājuši pārbaudes sistēmu lielām mākslīgā intelekta valodu modeļiem: Search-Augmented Factuality Evaluator jeb SAFE pārbauda gari atbildes, ko radījuši AI tērzētboti. Viņu pētījumi ir pieejami kā pirmspublicējums arXiv kopā ar visu eksperimentālo kodu un datu kopām.

Sistēma analizē, apstrādā un novērtē atbildes četrās darbībās, lai pārbaudītu to precizitāti un atbilstību. Sākumā SAFE sadala atbildi atsevišķos faktos, pārskata tos un salīdzina ar Google meklēšanas rezultātiem. Sistēma arī pārbauda atsevišķu faktiskumu, atbilstoši sniegtajam jautājumam.

Lai novērtētu SAFE veiktspēju, pētnieki izveidoja LongFact, datu kopu, kurā ietilpst aptuveni 16 000 fakti. Pēc tam viņi pārbaudīja sistēmu ar 13 lielajām valodu modeļiem no četrām dažādām ģimenēm (Claude, Gemini, GPT, PaLM-2). 72% gadījumu SAFE sniedza tādus pašus rezultātus kā cilvēku pārbaude. Gadījumos, kad AI rezultāti nesakrīt, SAFE bija pareiza 76% gadījumu.

Pētnieki apgalvo, ka SAFE izmantošana ir 20 reizes lētāka nekā cilvēku pārbaude. Tādējādi risinājums izrādījies ekonomiski dzīvotspējīgs un piemērots masštabēšanai. Esošie pieejas satura atbilstības novērtēšanai, ko veidojis modelis, parasti balstās uz tiešu cilvēcisku novērtējumu. Neskatoties uz tā vērtību, šis process ir ierobežots ar cilvēka sprieduma subjektivitāti un mainīgumu, kā arī ar problēmām, kas saistītas ar cilvēka darba pielietošanu lielām datu kopām.

Avots: Marktechpost