Startups Etched ir paziņojis par līdz šim jaudīgāko uz ASIC bāzēto Sohu AI mikroshēmu - 8 no tām aizstās 160 NVIDIA H100.

Etched ir viens no NVIDIA konkurentiem mākslīgā intelekta procesoru tirgū. Startaps piedāvā alternatīvu pieeju to izveidei, līdzīgu ASIC ražošanai kriptovalūtu ieguvei – specializāciju uz konkrētu ģeneratīvā AI veidu, pazīstamu kā transformeri. Šie čipi nedarbojas ar citām modeļiem, taču ar specifiskajiem modeļiem tiem ir ievērojami augstāka veiktspēja. Iepazīstinātie Sohu procesori strādā ar Llama 70B un spēj apstrādāt 500 tūkstošus tokenu sekundē. Serveris ar 8x Sohu čipiem tādējādi spēj aizstāt 160 NVIDIA H100 procesorus.

Sohu ir pirmais specializētais čips transformatoru modeļiem, apgalvo Etched. Tam ir ievērojami augstāka veiktspēja salīdzinājumā ar jebkuriem esošajiem vispārējiem risinājumiem, taču Sohu nevar palaist CNN, LSTM, SSM vai jebkādus citus AI modeļus. Tas ir izgatavots, izmantojot TSMC 4 nm tehnoloģisko procesu.

Kompānija norāda, ka pašlaik katrs galvenais AI produkts tirgū (ChatGPT, Claude, Gemini, Sora) balstās uz transformeriem, un tiek prognozēts, ka pēc dažiem gadiem katrs liels mākslīgā intelekta modelis darbosies uz specializētajiem čipiem. Etched uzskata šo procesu par neizbēgamu.

Sohu procesors tiek izsludināts kā vairāk nekā 10 reizes ātrāks un lētāks nekā jaunās paaudzes NVIDIA Blackwell čipi (B200). Viens Sohu serveris apstrādā Llama 70B tokenus 20 reizes ātrāk nekā H100 serveris (23 000 tokenu/s) un 10 reizes ātrāk nekā B200 serveris (~45 000 tokenu/s). Dati ir iegūti, strādājot FP8 režīmā bez retināšanas un 8x modeļa paralelizācijas ar 2048 ievades/128 izvades datiem. 8xH100 rezultāti ir iegūti ar TensorRT-LLM 0.10.08 (pēdējā versija), un 8xB200 dati ir prognozēti. "Tas ir tas pats etalons, ko izmanto NVIDIA un AMD," teica Etched.

Etched kritizē universālā GPU arhitektūru, norādot, ka tie nekļūst labāki, bet tikai lielāki. Pēdējo četru gadu laikā to aprēķinu blīvums (TFLOPS/mm²) ir uzlabojies tikai par aptuveni 15%. Jaunās paaudzes GPU (NVIDIA B200, AMD MI300X, Intel Gaudi 3, AWS Trainium2 utt.) izmanto divus čipus kā vienu, lai "dubultotu" savu veiktspēju. Saskaņā ar startapa apgalvojumiem vienīgais veids, kā uzlabot veiktspēju ar Moor'a likuma palēnināšanos, ir specializācija.

Specializēto čipu izstrādes ekonomiskais pamatojums balstās uz to relatīvi zemajām izmaksām salīdzinājumā ar investīcijām AI apmācībā un darbībā. Šodien mākslīgā intelekta modeļi izmanto vairāk nekā $1 miljardu apmācībai un desmitiem miljardu darbībai. Šāda mēroga uzlabojums par 1% attaisnotu $50-100 miljonu investīcijas pašu čipu projektā. ASIC ir 10-100 reizes ātrāki nekā grafiskie procesori.

"Kad [specializētie] bitkoina rakšanas čipi nonāca tirgū 2014. gadā, kļuva lētāk izmest grafiskos procesorus, nekā izmantot tos bitkoina ieguvei. Runa ir par miljardiem dolāru, tas pats notiek ar AI... Uzvarēs tā arhitektūra, kas strādās visātrāk un lētāk uz aparatūras," teica Etched pārstāvis.

Pārveidojot modeļu veiktspēju no $1 miljarda līdz $100 miljardiem, risks testēt jaunu arhitektūru ievērojami pieaug. Etched uzskata, ka pūles vislabāk vērst uz transformatoru efektivitātes uzlabošanu, nevis vienkāršu izmēru palielināšanu.

"Kad Sohu (un citi ASIC) nonāks tirgū, mēs sasniegsim neatgriešanās punktu. Transformatoru alternatīvas būs jādarbojas ātrāk uz grafiskajiem procesoriem nekā transformatori uz Sohu. Ja tas notiks, mēs izstrādāsim ASIC arī tam!”

Etched, kas pastāv tikai divus gadus, dibināja Harvarda absolventi, Gevins Ubertī (OctoML un Xnor.ai) un Kriss Ču. Kopā ar Robertu Vahenu un bijušā Cypress Semiconductor tehnisko direktoru Marku Rosu viņi cerēja radīt čipu, kas veiktu tikai vienu funkciju: palaist AI modeļus.

Daudzi startapi un tehnoloģiju giganti izstrādā čipus, kas darbojas tikai ar mākslīgā intelekta modeļiem. Meta ir MTIA, Amazon ir Graviton un Inferentia utt. Bet Etched čipi ir unikāli ar to, ka tie darbojas tikai ar vienu modeļa tipu – transformeriem.

"2022. gadā mēs prognozējām, ka transformeri pārņems pasauli. Tagad mēs esam sasnieguši to AI evolūcijas punktu, kur specializēti čipi, kas var darboties labāk nekā vispārējie GPU, ir neizbēgami – un cilvēki, kas pieņem tehnoloģiskus lēmumus pasaulē, par to ir pārliecināti," sacīja Ubertī, Etched izpilddirektors.

Kā Sohu sasniedz šo veiktspēju? Ar vairākām metodēm, bet acīmredzamākās ir vienkāršots aparatūras un programmatūras konveijers. Tā kā Sohu nedarbojas ar netransformatoru modeļiem, Etched komanda var atteikties no aparatūras komponentēm, kas nav saistītas ar tiem, un tas pats attiecas uz programmatūru.

"Īsumā, mūsu nākotnes klienti nevarēs atļauties nepāriet uz Sohu. Uzņēmumi ir gatavi likt uzsvaru uz Etched, jo ātrums un cena ir svarīgi AI produktiem, kurus viņi cenšas radīt," sacīja Ubertī.

Šobrīd Etched nav konkurentu, kas būtu tikuši tik tālu, taču sacensība jau sākas. Ja parādīsies efektīvāki tehnoloģijas vai citi AI modeļi kļūs populāri, uzņēmums apgalvo, ka vienkārši izstrādās jaunu čipu.

Avoti: Etched, TechCrunch