Sari la continut

Vorbește cu Republica și ascultă editorialele audio

Vă mulțumim că ne sunteți alături de nouă ani Ascultați editorialele audio publicate pe platformă. Un proiect de inovație în tehnologie susținut de DEDEMAN.

Peste 100.000 de videoclipuri YouTube utilizate pentru a antrena AI Generativ pentru Apple, Nvidia, Anthropic și Salesforce

Antrenarea AI pe YouTube

Investigațiile recente au dezvăluit că mari companii tehnologice, inclusiv Apple, Nvidia, Anthropic și Salesforce, au folosit transcrieri din peste 173.000 de videoclipuri YouTube pentru a-și antrena modelele de inteligență artificială. Această practică a ridicat preocupări etice și legale semnificative, în special deoarece pare să încalce termenii de serviciu ai YouTube.

Constatări - cheie

Setul de date, cunoscut sub numele de "YouTube Subtitles", include transcrieri din mai mult de 173.000 de videoclipuri YouTube de pe peste 48.000 de canale. Creatori proeminenți de pe YouTube, precum MrBeast, Marques Brownlee și John Oliver, alături de mari organizații de știri precum BBC și The Wall Street Journal, au avut transcrierile videoclipurilor lor incluse în acest set de date.

EleutherAI, o organizație non-profit dedicată democratizării accesului la AI, a compilat acest set de date. Face parte dintr-o colecție mai mare cunoscută sub numele de "The Pile", care include și date din surse precum Wikipedia, discursurile Parlamentului European și e-mailurile Enron. Extracția transcrierilor YouTube pentru scopuri de antrenare AI contravine direct termenilor de serviciu ai YouTube, care interzic preluarea automată de date.

Preocupări etice și legale

Creatorii de conținut nu au fost informați și nici nu li s-a cerut consimțământul înainte ca transcrierile videoclipurilor lor să fie folosite, ceea ce a dus la frustrare și furie pe scară largă în rândul YouTuberilor care simt că munca lor a fost exploatată fără compensație.

Utilizarea neautorizată a conținutului YouTube pentru antrenarea AI ar putea duce la provocări legale, deoarece cazuri similare au fost deja depuse împotriva altor companii tehnologice pentru utilizarea materialelor protejate de drepturi de autor fără permisiune. Mulți creatori investesc timp și resurse considerabile în producerea conținutului lor, iar utilizarea neautorizată a muncii lor pentru antrenarea AI le subminează eforturile și poate afecta veniturile lor.

Proof News a subliniat că reprezentanții de la Anthropic și Salesforce au confirmat utilizarea setului de date Pile, apărându-și acțiunile prin afirmația că datele erau disponibile public. Nvidia a refuzat să comenteze, iar reprezentanții de la Apple, Databricks și Bloomberg nu au răspuns solicitărilor de comentarii. Prezența deexprimări jignitoare și prejudecăți în cadrul setului de date a născut preocupări suplimentare despre calitatea și utilizarea etică a datelor pentru antrenarea modelelor AI.

În lucrarea lor de cercetare, dezvoltatorii de la Salesforce au menționat că Pile conținea și profanități și prejudecăți împotriva genului și anumitor grupuri religioase, avertizând că aceste probleme ar putea duce la vulnerabilități și probleme de siguranță. Proof News a găsit numeroase exemple de exprimări jignitoare și injurii rasiale și de gen în cadrul setului de date.

Abigail Thorn, producătoarea canalului YouTube Philosophy Tube, și-a exprimat indignarea după ce a descoperit că materialele sale au fost folosite fără permisiune, evidențiind impactul negativ asupra muncii sale creative. Alți creatori și-au manifestat îngrijorări similare, accentuând lipsa de consimțământ și transparență în procesul de utilizare a datelor lor.

Industria tehnologică investește masiv în hardware AI, Nvidia fiind pe cale să vândă GPU-uri AI în valoare de 12 miliarde de dolari Chinei, reflectând cererea tot mai mare de capacități AI în ciuda constrângerilor de reglementare. Acest lucru subliniază presiunile pieței mai largi și arată până unde vor merge companiile pentru a obține date de antrenare.

Răspunsuri și soluții

Pentru a aborda aceste preocupări, Proof News a dezvoltat un instrument care permite YouTuberilor să verifice dacă conținutul lor a fost inclus în setul de date. Companiile precum Anthropic și Salesforce au argumentat că datele erau accesibile public, deși această poziție este în conflict cu termenii de serviciu ai YouTube. În plus, proiecte precum Nightshade de la Universitatea din Chicago explorează modalități de a proteja conținutul digital de a fi preluat de modelele AI, inclusiv tehnici de "otrăvire" a imaginilor, făcându-le mai puțin utile pentru antrenarea AI.

Google a fost, de asemenea, implicat în permiterea OpenAI să preia date de pe YouTube pentru a-și antrena modelele AI, evidențiind și mai mult necesitatea unor reglementări și ghiduri mai clare în ceea ce privește utilizarea conținutului online pentru antrenarea AI. Capacitatea de a colecta și utiliza cantități vaste de date fără cunoștința sau consimțământul creatorilor este o problemă semnificativă care trebuie abordată.

Concluzie

Faptul că peste 100.000 de videoclipuri YouTube au fost preluate pentru a antrena modele AI pentru companii precum Apple și Nvidia subliniază provocările etice și legale în curs de desfășurare în industria AI. Pe măsură ce tehnologia AI continuă să evolueze, este esențial să se stabilească reglementări și protecții mai clare pentru creatorii de conținut pentru a se asigura că munca lor nu este exploatată fără consimțământ.

Actul de Inteligență Artificială (EU AI Act) este o propunere legislativă a Uniunii Europene care vizează reglementarea tehnologiilor AI. Acesta poate rezolva problemele legate de utilizarea neautorizată de date ale videoclipurilor YouTube ca in acest caz, asigurând că asemenea practici respectă legile de protecție a datelor și drepturile de autor. Prin stabilirea unor standarde clare și promovarea transparenței în utilizarea datelor, AI Act poate proteja creatorii de conținut de exploatarea fără permisiune a muncii lor, garantând în același timp că dezvoltarea AI se face într-un mod etic și legal. Astfel, AI Act ar putea preveni incidente similare în viitor și ar crea un mediu mai echitabil pentru toți cei implicați.

Mai multe despre Legea Europeană privind AI puteți citi aici:

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp 

Abonează-te la newsletterul Republica.ro

Primește cele mai bune articole din partea autorilor.

Comentarii. Intră în dezbatere


Îți recomandăm

Copertă Scrisoare pentru Augustin

Deși produc distorsiuni grave, cu impact puternic, statele lumii intervin tot mai des în ordinea spontană a pieței, creând în ultimele decenii cetățenilor așteptarea că cineva are obligația „să-i salveze”. Cu cât statul acționează mai mult prin reglementări cu scop, cu atât blochează ordinea spontană a pieței și obține efecte greu de reparat. Lucian Croitoru remarcă faptul că trăim într-o disonanță cognitivă de amploare istorică la nivel planetar: același om care dimineața respectă un contract, seara votează pentru politici care subminează contractul. Dar nu o face din ipocrizie, scrie autorul.

Citește mai mult

Festivalul Untold anunță a 12-a ediție Blood Network. Donează sânge, salvează o viață și îi vezi gratuit pe Sting, Chainsmokers și James Hype

Organizatorii festivalului Untold One, care se va desfășura în perioada 6-9 august 2026 la Cluj Napoca, anunță startul celei de-a 12-a ediții a Blood Network. Dacă donezi sânge la caravana mobilă care va fi prezentă în 10 orașe, vei primi un bilet gratuit pentru prima zi a festivalului.

Citește mai mult

Prof.dr. Victor Costache

La finalul săptămânii trecute, Casa Națională de Asigurări de Sănătate a publicat în cadrul procesului de transparență legislativă un proiect de ordin care modifică normele tehnice pentru programele naționale de sănătate. Documentul introduce o formulă de calcul care ar trebui să se aplice la nivel de județ, pentru a stabili dacă spitalele publice au o „capacitate depășită”- numai în acest caz urmând a fi contractați furnizori privați pentru îngrijirea pacienților. Cu alte cuvinte, spun asociațiile de pacienți și patronatele din industrie, se urmărește reducerea accesului cetățenilor la tratament. CNAS spune însă că efectul va fi exact opus.

Citește mai mult