MegaBits.lv - ir tiešsaites žurnāls, kur tu vari atrast jaunumus un ziņas par mūsdienīgam tehnoloģijam


Atpakaļ
Tehnoloģijas

OpenAI atklāja Voice Engine - modeli balss ģenerēšanai no parauga - izrādās, ka to jau ir dzirdējušas masas.

OpenAI atklāja Voice Engine - modeli balss ģenerēšanai no parauga - izrādās, ka to jau ir dzirdējušas masas.
0 0 11 0

OpenAI prezentēja darba rezultātus Voice Engine, rīka, kas sniedz realistisku balss sintēzi, pamatojoties uz 15 sekunžu paraugu un tekstu, kas tika izstrādāts aptuveni divus gadus. Tomēr tam nav publiska piekļuves - uzņēmums baidās par drošību.

"Mēs ceram uzsākt dialogu par atbildīgu sintētisko balsu lietošanu un par to, kā sabiedrība var pielāgoties šīm jaunajām iespējām. Balstoties uz šiem dialogiem un šo nelielo testu rezultātiem, mēs pieņemsim labāku lēmumu, vai un kā izmantot šo tehnoloģiju mērogā," - teikts OpenAI blogā.

Dzina, kas darbojas ar Voice Engine, uz noteiktu laiku bija paslēpta acīmredzamā skatienā. Tā ir pamatā balss un ātri lasīšanas iespējas ChatGPT, kā arī iepriekš noteiktie balsi, kas pieejami OpenAI teksta pārveidošanas API valodā. Spotify to izmanto ar šī gada septembra sākumu, lai dublētu podcastus dažādās valodās.

Uzņēmums identificē dažādas tehnoloģijas pielietošanas iespējas: palīdzība tiem, kuri kādā iemeslā nevar lasīt, tulkošana, balss pakalpojumu sniegšana attālinātiem kopienām, cilvēku ar balses traucējumiem atbalstīšana un palīdzība tā atjaunošanai. Piemēri ar paraugiem vairākās valodās arī ir sniegti blogā.

Portāls TechCrunch jautāja uzņēmuma pārstāvim Džefam Harisam, uz kādiem materiāliem tika apmācīts Voice Engine. Viņš atbildēja, ka Voice Engine modelis tika apmācīts ar licencētu un publiski pieejamu datu maisījumu. Detaļas par mākslīgā intelekta modeļu apmācību var būt gan konkurētspējas priekšrocība, gan juridisku problēmu avots, tāpēc trūkstot detalizēm, nav pārsteigums. Voice Engine ļoti piesardzīgi izmanto lietotāju datus:

"Mēs ņemam nelielu audio un teksta paraugu un radām realistisku runu, kas atbilst oriģinālajam runātājam," - saka Hariss. - "Izmantotais audio tiek izdzēsts pēc pieprasījuma pabeigšanas."

Pēc vietnes informācijas, nākotnes pakalpojuma cena būs "sasitas". OpenAI ir izņēmusi Voice Engine lietošanas cenu no mārketinga materiāliem, bet tehnoloģijas centrā ir norādīta cena - $15 par vienu miljonu rakstzīmju jeb ~162 500 vārdiem angļu valodā. Tas ir nedaudz vairāk par Dikensa romānu "Olivers Tvists". Tas nozīmē apmēram 18 stundas audio materiāla, tātad cena ir nedaudz zemāka par 1 ASV dolāru stundā.

Cena ir zemāka nekā vienam no populārākajiem konkurentiem, ElevenLabs, ar cenu $11 par 100 000 rakstzīmēm mēnesī. Interesanti, ka HD kvalitātes variants maksā divkārtīgi, bet, kā teica OpenAI pārstāvis TechCrunch, nav nekādas atšķirības starp HD un ne HD balsīm - to var saprast kā gribat. Voice Engine arī nesniedz kontroles elementus pār balsi, tādu kā toņa, augstuma vai citām balses karakteristikām.

Aktiera darbam skaņas ieraksta pakalpojumā ZipRecruiter cenas mainās no $12 līdz $79 stundā - tas ir daudz dārgāk nekā Voice Engine. Aktieri ar aģentiem saņems daudz augstāku atlīdzību. Turklāt pastāv deepfake problēma. Tāpēc uzņēmums pagaidām ļoti piesardzīgi virzās, izmantojot minētās piemēru lietošanu.

Paldies, tavs viedoklis pieņemts.

Komentāri (0)

Šobrīd nav neviena komentāra

Atstāj Komentāru:

Lai būtu iespējams atstāt komentāru - tēv jāautorizējas mūsu vietnē

Saistītie Raksti