Mākslīgais intelekts apmācībai ir izmantojis vairāk nekā 140 000 filmu un TV seriālu - tostarp visas "Breaking Bad" un "Soprānu klana" epizodes.

Vietne The Atlantic izpētīja datu kopu, kas tika izmantota, lai apmācītu mākslīgā intelekta modeļus, kas pieder Apple, Anthropic un Nvidia, un konstatēja, ka filmu industrijas darbinieku bažas par jauno tehnoloģiju ir pamatotas.

Datu kopā tika iekļauti elementi no 53 000 filmu un 85 000 seriālu: īpaši visi filmas, kas nominētas par "labāko filmu" laikposmā no 1950. līdz 2016. gadam, aptuveni 600 "Simpsoni" epizodes, 170 "Seinfelds" epizodes, 45 "Twin Peaks" epizodes, kā arī visas "Breaking Bad" un "Sopranos" sērijas. Datu kopa arī saturēja "dzīvos" dialogus no "Zelta globusu" un "Oskara" pārraidēm.

The Atlantic norāda, ka datu kopā iekļauti teksti nav oriģinālie scenāriji, bet subtitri no vietnes OpenSubtitles.org. Lietotāji tos parasti iegūst no DVD, Blu-ray un straumēšanas, izmantojot optiskās zīmju atpazīšanas programmatūru, un pēc tam augšupielādē vietnē (tur pašlaik ir vairāk nekā 9 miljoni failu ar subtitriem vairāk nekā 100 valodās un dialektos).

Dažas kompānijas savās pētniecības publikācijās min subtitru izmantošanu: piemēram, Anthropic apmācīja Claude - tērzēšanas botu uz tiem, Meta - lielo valodu modeļu grupu, ko sauc par Open Pre-trained Transformer (OPT), Apple - LLM, kas var darboties iPhone, bet Nvidia - NeMo Megatron LLM. Tāpat OpenSubtitles.org aktīvi izmantoja Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras un citi mākslīgā intelekta izstrādātāji.

Apple komentārā norādīja, ka tās LLM ir paredzēti tikai "tikai pētījumiem," bet Salesforce sacīja, ka šī datu kopa "nekad nav izmantota, lai uzlabotu jebkādus uzņēmuma produkta piedāvājumus." Pārējie rakstā minētie uzņēmumi vai nu atteicās komentēt, vai neatbildēja uz pieprasījumiem.

Jautājums par datu izmantošanas legalitāti mākslīgā intelekta apmācībai paliek atvērts kopš teksta botu popularitātes pieauguma pēc ChatGPT izveides. Kompāniju pārredzamība joprojām ir zema, un tikai tiesa var likt tām atklāt datus, tomēr OpenAI gadījums rāda, ka arī šī informācija var pēkšņi pazust.

Šķiet, ka "Breaking Bad" drāmas scenārists Vince Gilligan kaut ko zināja, kad pagājušajā gadā ģeneratīvo mākslīgo intelektu nosauca par "ārkārtīgi sarežģītu un energoietilpīgu plaģiāta formu" — interesanti, kā viņš reaģētu, zinot, ka tehnoloģija jau izmanto viņa rakstīto dialogu?