OpenAI ir transkribējusi vairāk nekā miljonu stundu YouTube videoklipu GPT-4 apmācībai.

Saskaņā ar The New York Times datiem, OpenAI izstrādāja Whisper audio transkripcijas modeli un transkribēja vairāk nekā vienu miljonu stundu videoklipu YouTube, lai iegūtu augstas kvalitātes materiālus GPT-4 modeļa apmācībai.

Ir ziņots, ka uzņēmums bija informēts, ka šādas darbības ir juridiski apšaubāmas un atradās autortiesību "pelēkajā zonā". Tomēr tas uzskatīja to par labprātīgu materiālu izmantošanu. OpenAI prezidents Gregs Brukmans personīgi piedalījās video savākšanā, kas tika izmantoti.

OpenAI izsmēra noderīgo datu krājumus 2021. gadā un apsprieda YouTube video, podkāstu un audiogrāmatu transkripciju pēc citu resursu apskates. Uzņēmums šajā laikā bija apmācījis savus modeļus ar datiem, kas iekļāva Github datora kodu, šahmatu gājumu datu bāzes un skolēnu uzdevumu saturu no Quizlet.

OpenAI preses sekretāre Lindsija Held paziņoja, ka uzņēmums kuras "unikālas" datu kopas katram savam modelim, lai "palīdzētu viņiem saprast pasauli" un atbalstītu konkurenci globālajos pētījumos. Tajā pašā laikā uzņēmums izmanto "daudzus avotus, ieskaitot publiski pieejamu informāciju un partnerattiecības nesankcionētu datu". Kompānija arī meklē iespējas radīt savus sintētiskos datus.

Google pārstāvis Mets Braiants norādīja, ka uzņēmums "redzējis nepieciešamos ziņojumus" par OpenAI darbībām, piebilstot, ka "mūsu robots.txt faili un Lietošanas noteikumi aizliedz nesankcionētu YouTube satura kopēšanu vai lejupielādi".

Pirmdien YouTube izpilddirektors Nīls Mohans paziņoja, ka OpenAI modeļa apmācībai izmantotā platformas datu izmantošana pārkāpj izmantošanas noteikumus. Tāpēc Google veic "tehniskus un juridiskus pasākumus", lai novērstu šādu nesankcionētu izmantošanu, "ja mums ir skaidrs juridisks vai tehnisks pamats tam".

Saskaņā ar Times avotiem, Google arī veidoja transkripcijas no YouTube. Mets Braiants teica, ka uzņēmums apmācījis savus modeļus "dažiem YouTube saturam atbilstīgi mūsu vienošanās ar YouTube veidotājiem".

Meta arī saskaras ar problēmām saistībā ar labiem apmācības datiem pieejamības ziņā, un tās AI komanda apsprieda nelikumīgu autortiesību aizsargāto darbu izmantošanu, lai aizvainotu OpenAI. Pēc "gandrīz pieejamo angļu valodas grāmatu, esejas, dzejoļu un ziņu rakstu internetā" pārskatīšanas uzņēmums apsvera pasākumus, piemēram, grāmatu licenču iegādi vai pat tiešu liela izdevēja iegādi. Turklāt tas bija ierobežots attiecībā uz datu lietošanas veidiem, ko tas varētu veikt, izmaiņas, vēršoties pret konfidencialitāti, ko tas veica pēc Cambridge Analytica skandāla.

Avots: The Verge