Peste 100.000 de videoclipuri YouTube utilizate pentru a antrena AI Generativ pentru Apple, Nvidia, Anthropic și Salesforce

Investigațiile recente au dezvăluit că mari companii tehnologice, inclusiv Apple, Nvidia, Anthropic și Salesforce, au folosit transcrieri din peste 173.000 de videoclipuri YouTube pentru a-și antrena modelele de inteligență artificială. Această practică a ridicat preocupări etice și legale semnificative, în special deoarece pare să încalce termenii de serviciu ai YouTube.

Constatări - cheie

Setul de date, cunoscut sub numele de "YouTube Subtitles", include transcrieri din mai mult de 173.000 de videoclipuri YouTube de pe peste 48.000 de canale. Creatori proeminenți de pe YouTube, precum MrBeast, Marques Brownlee și John Oliver, alături de mari organizații de știri precum BBC și The Wall Street Journal, au avut transcrierile videoclipurilor lor incluse în acest set de date.

EleutherAI, o organizație non-profit dedicată democratizării accesului la AI, a compilat acest set de date. Face parte dintr-o colecție mai mare cunoscută sub numele de "The Pile", care include și date din surse precum Wikipedia, discursurile Parlamentului European și e-mailurile Enron. Extracția transcrierilor YouTube pentru scopuri de antrenare AI contravine direct termenilor de serviciu ai YouTube, care interzic preluarea automată de date.

Preocupări etice și legale

Creatorii de conținut nu au fost informați și nici nu li s-a cerut consimțământul înainte ca transcrierile videoclipurilor lor să fie folosite, ceea ce a dus la frustrare și furie pe scară largă în rândul YouTuberilor care simt că munca lor a fost exploatată fără compensație.

Utilizarea neautorizată a conținutului YouTube pentru antrenarea AI ar putea duce la provocări legale, deoarece cazuri similare au fost deja depuse împotriva altor companii tehnologice pentru utilizarea materialelor protejate de drepturi de autor fără permisiune. Mulți creatori investesc timp și resurse considerabile în producerea conținutului lor, iar utilizarea neautorizată a muncii lor pentru antrenarea AI le subminează eforturile și poate afecta veniturile lor.

Proof News a subliniat că reprezentanții de la Anthropic și Salesforce au confirmat utilizarea setului de date Pile, apărându-și acțiunile prin afirmația că datele erau disponibile public. Nvidia a refuzat să comenteze, iar reprezentanții de la Apple, Databricks și Bloomberg nu au răspuns solicitărilor de comentarii. Prezența deexprimări jignitoare și prejudecăți în cadrul setului de date a născut preocupări suplimentare despre calitatea și utilizarea etică a datelor pentru antrenarea modelelor AI.

În lucrarea lor de cercetare, dezvoltatorii de la Salesforce au menționat că Pile conținea și profanități și prejudecăți împotriva genului și anumitor grupuri religioase, avertizând că aceste probleme ar putea duce la vulnerabilități și probleme de siguranță. Proof News a găsit numeroase exemple de exprimări jignitoare și injurii rasiale și de gen în cadrul setului de date.

Abigail Thorn, producătoarea canalului YouTube Philosophy Tube, și-a exprimat indignarea după ce a descoperit că materialele sale au fost folosite fără permisiune, evidențiind impactul negativ asupra muncii sale creative. Alți creatori și-au manifestat îngrijorări similare, accentuând lipsa de consimțământ și transparență în procesul de utilizare a datelor lor.

Industria tehnologică investește masiv în hardware AI, Nvidia fiind pe cale să vândă GPU-uri AI în valoare de 12 miliarde de dolari Chinei, reflectând cererea tot mai mare de capacități AI în ciuda constrângerilor de reglementare. Acest lucru subliniază presiunile pieței mai largi și arată până unde vor merge companiile pentru a obține date de antrenare.

Răspunsuri și soluții

Pentru a aborda aceste preocupări, Proof News a dezvoltat un instrument care permite YouTuberilor să verifice dacă conținutul lor a fost inclus în setul de date. Companiile precum Anthropic și Salesforce au argumentat că datele erau accesibile public, deși această poziție este în conflict cu termenii de serviciu ai YouTube. În plus, proiecte precum Nightshade de la Universitatea din Chicago explorează modalități de a proteja conținutul digital de a fi preluat de modelele AI, inclusiv tehnici de "otrăvire" a imaginilor, făcându-le mai puțin utile pentru antrenarea AI.

Google a fost, de asemenea, implicat în permiterea OpenAI să preia date de pe YouTube pentru a-și antrena modelele AI, evidențiind și mai mult necesitatea unor reglementări și ghiduri mai clare în ceea ce privește utilizarea conținutului online pentru antrenarea AI. Capacitatea de a colecta și utiliza cantități vaste de date fără cunoștința sau consimțământul creatorilor este o problemă semnificativă care trebuie abordată.

Concluzie

Faptul că peste 100.000 de videoclipuri YouTube au fost preluate pentru a antrena modele AI pentru companii precum Apple și Nvidia subliniază provocările etice și legale în curs de desfășurare în industria AI. Pe măsură ce tehnologia AI continuă să evolueze, este esențial să se stabilească reglementări și protecții mai clare pentru creatorii de conținut pentru a se asigura că munca lor nu este exploatată fără consimțământ.

Actul de Inteligență Artificială (EU AI Act) este o propunere legislativă a Uniunii Europene care vizează reglementarea tehnologiilor AI. Acesta poate rezolva problemele legate de utilizarea neautorizată de date ale videoclipurilor YouTube ca in acest caz, asigurând că asemenea practici respectă legile de protecție a datelor și drepturile de autor. Prin stabilirea unor standarde clare și promovarea transparenței în utilizarea datelor, AI Act poate proteja creatorii de conținut de exploatarea fără permisiune a muncii lor, garantând în același timp că dezvoltarea AI se face într-un mod etic și legal. Astfel, AI Act ar putea preveni incidente similare în viitor și ar crea un mediu mai echitabil pentru toți cei implicați.

Mai multe despre Legea Europeană privind AI puteți citi aici:

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp