Mākslīgā intelekta modelis Claude 3 Chatbot Arena pirmo reizi pārspēj GPT-4

Lielā valodu modelis (LLM) Claude 3 Opus no Anthropic pirmo reizi pārspēja GPT-4 no OpenAI vietnē Chatbot Arena.

«Karalis ir miris», — rakstīja X (Twitter) programmētājs Nīks Dobossi savā ziņā, salīdzinot GPT-4 Turbo un Claude 3 Opus.

Karalis ir miris
Atvadās, GPT-4
Claude opus #1 ELo
Haiku iekaro GPT-4 0613 & Mistral lielo
Tas ir neiespējami, cik lēts & ātrs tas ir https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH
— Nīks Dobossi (@NickADobos) 26. marts 2024

Chatbot Arena ir crowdsourcing atvērta platforma lielu valodu modeļu novērtēšanai. Lai veidotu reitingu, tiek novērtēts liels cilvēku atsauksmju daudzums par modeļu veiktspēju izmantojot Elo reitingu. Kā testēšana darbojas — cilvēki ievada vaicājumu un izvēlas labāko atbildi no vairākiem modeļu variantiem. Pamatojoties uz tūkstošiem lietotāju testu, tiek izveidots un sakārtots topa saraksts.

Chatbot Arena līderu tabula tika izveidota 2023. gada 3. maijā, un GPT-4 tajā tika iekļauts 10. maijā. Kops šī laika dažādi GPT-4 varianti pastāvīgi ieņēma pirmo vietu reitingā. Līdz šim. Tāpēc jaunā līdera parādīšanās šajā jomā piesaista uzmanību. Turklāt Anthropic viena no mazākajām modeļiem, Haiku, piesaistīja uzmanību ar savu sniegumu līderu tabulā.

«Pirmo reizi labākie pieejamie modeļi — Opus sarežģītiem uzdevumiem, Haiku efektivitātes un efektivitātes nolūkos — ir pieejami no piegādātāja, kurš nav OpenAI», sacīja neatkarīgais AI pētnieks Simons Vilsons. «Tas nomierina — mēs visi guvām labumu no dažādu nozīmīgu piegādātāju dažādības šajā jomā. Tomēr GPT-4 pašlaik pastāv jau vairāk nekā gadu, un šis gads bija nepieciešams, lai kāds viņu apsteigtu».

Pēc Claude 3 Opus un divām GPT-4 versijām reitingā ierindojās arī Google modeļa Bard (Gemini Pro). Tomēr, ja starp pirmajām trim pozīcijām Elo punktos atšķirība ir neliela (2-3 punkti), tad Bard atpaliek no trešās vietas jau par 45 punktiem. Pārējie konkurenti guva zem 1200 punktu.

Avots: arstechnica