Nvidia ir atklājusi mākslīgā intelekta modeli Fugatto, kas "saprot un ģenerē skaņu tāpat kā cilvēki".

Nvidia prezentēja jaunu eksperimentālu ģeneratīvu AI, kuru tā dēvē par «universālu instrumentu darbam ar skaņu».

Šis modelis, pazīstams kā Foundational Generative Audio Transformer Opus 1 (vai Fugatto), spēj uztvert tekstu uzvednes un izmantot tās, lai radītu audio vai mainītu esošos mūzikas, balss un skaņas failus. Modeļa izstrādē strādāja starptautiska AI pētnieku komanda, kas, pēc NVIDIA teiktā, padarīja tās «daudzakcentu un daudzvalodu spējas» vēl stiprākas.

Rafaels Valle, viens no projekta pētniekiem un audio pētījumu vadītājs NVIDIA, norādīja: «Mēs vēlējāmies izveidot modeli, kas saprot un ģenerē skaņu tāpat kā cilvēki».

Kompānija sniedza vairākus piemērus, kur Fugatto var būt noderīgs. Piemēram, mūzikas producenti varēs ātri izveidot dziesmu prototipus, kurus pēc tam viegli rediģēt, mainot stilus, balsis un instrumentus.

Cilvēki varēs izmantot Fugatto, lai izveidotu materiālus valodu apguvei ar izvēlētu balsi. Savukārt spēļu izstrādātāji varēs radīt dažādas iepriekš ierakstītu skaņu variācijas, lai tās atbilstu izmaiņām spēlē atkarībā no spēlētāju izvēles un darbībām.

Turklāt pētnieki atklāja, ka modelis var veikt uzdevumus, kuriem tas nav mācīts, ar nelielu papildu pielāgošanu. Piemēram, tas var apvienot atsevišķi apgūtas komandas, lai ģenerētu dusmīgu balsi ar noteiktu akcentu vai putnu dziedāšanas skaņu pērkona laikā. Modelis arī spēj radīt skaņas, kas mainās laika gaitā, piemēram, tuvojoša lietus skaņu.

NVIDIA nav informējusi, vai tiks nodrošināta publiska piekļuve Fugatto. Taču šis AI modelis nav pirmā ģeneratīvā sistēma, kas spēj radīt skaņas no tekstuālām uzvednēm. Iepriekš Meta izlaida atvērta koda AI rīku, kas var ģenerēt skaņas no teksta aprakstiem. Un Google ir savs AI, kas nosaukts par MusicLM, kas pārvērš tekstu mūzikā.

Avots: Nvidia, Engadget