Matemātiķi izstrādāja sarežģītus uzdevumus, lai pārbaudītu Gemini, Kloda un GPT-4o domāšanu - gandrīz visos testos viņi cieta neveiksmi.

Vismodernākie mākslīgā intelekta modeļi ir atrisinājuši tikai 2% sarežģīto matemātisko uzdevumu, ko izstrādājuši vadošie pasaules matemātiķi.

Pētniecības institūts Epoch AI iepazīstināja ar jaunu testu komplektu FrontierMath, kuram nepieciešamas doktora līmeņa matemātikas zināšanas. Izstrādē tika piesaistīti matemātikas profesori, īpaši Fildsa balvas laureātiFildsa balva (Fields Medal) ir visprestižākā starptautiskā matemātikas balva, ko ik pēc četriem gadiem piešķir matemātiķiem līdz 40 gadu vecumam par izcilām sasniegumiem. Bieži dēvēta par "matemātikas Nobela prēmiju".. Šādiem uzdevumiem izstrādāšanai matemātiķiem-doktorantiem var būt nepieciešamas no vairāku stundu līdz dienu ilgas.

Ja iepriekšējos MMLU testosMMLU (Measuring Massive Multitask Language Understanding) ir standarta testu komplekts, kas paredzēts mākslīgā intelekta modeļu novērtēšanai. Testi aptver vairāk nekā 57 priekšmetu jomas, tostarp matemātiku, fiziku, vēsturi, tiesības, medicīnu un citas. Tos izmanto, lai salīdzinātu dažādus mākslīgā intelekta modeļus un novērtētu to spēju apgūt un pielietot zināšanas dažādās jomās. mākslīgā intelekta modeļi veiksmīgi risināja 98% matemātisko uzdevumu skolas un universitātes līmenī, tad ar jaunajiem uzdevumiem situācija ir krasi mainīta.

“Šie uzdevumi ir ārkārtīgi sarežģīti. Tos šobrīd var atrisināt tikai speciālists šajā jomā vai doktorants saistītā laukā kopā ar modernu mākslīgo intelektu un citiem algebriskajiem rīkiem,” norādīja 2006. gada Fildsa balvas laureāts Terenss Tao.

Pētījumā tika pārbaudīti seši vadošie mākslīgā intelekta modeļi. Gemini 1.5 Pro (002) no Google un Claude 3.5 Sonnet no Anthropic parādīja labāko rezultātu — 2% pareizu atbilžu. Modeļi o1-preview, o1-mini un GPT-4o no OpenAI spēja atrisināt 1% uzdevumu, bet Grok-2 Beta no xAI nespēja atrisināt nevienu uzdevumu.

FrontierMath aptver dažādas matemātiskās jomas — no skaitļu teorijas līdz algebriskajai ģeometrijai. Visi testa uzdevumi ir pieejami Epoch AI vietnē. Izstrādātāji ir radījuši unikālus uzdevumus, kas nav AI modeļu mācību datos.

Pētnieki norāda, ka pat tad, kad modelis dod pareizu atbildi, tas ne vienmēr liecina par pareizu domūšanu — dažreiz rezultátu var iegūt ar vienkāršiem simulācijām bez dziļas matemātiskas izpratnes.

Avots: Livescience