Sari la continut

Vorbește cu Republica și ascultă editorialele audio

Vă mulțumim că ne sunteți alături de șapte ani. Ascultați editorialele audio publicate pe platformă. Un proiect de inovație în tehnologie susținut de DEDEMAN.

Peste 100.000 de videoclipuri YouTube utilizate pentru a antrena AI Generativ pentru Apple, Nvidia, Anthropic și Salesforce

Antrenarea AI pe YouTube

Investigațiile recente au dezvăluit că mari companii tehnologice, inclusiv Apple, Nvidia, Anthropic și Salesforce, au folosit transcrieri din peste 173.000 de videoclipuri YouTube pentru a-și antrena modelele de inteligență artificială. Această practică a ridicat preocupări etice și legale semnificative, în special deoarece pare să încalce termenii de serviciu ai YouTube.

Constatări - cheie

Setul de date, cunoscut sub numele de "YouTube Subtitles", include transcrieri din mai mult de 173.000 de videoclipuri YouTube de pe peste 48.000 de canale. Creatori proeminenți de pe YouTube, precum MrBeast, Marques Brownlee și John Oliver, alături de mari organizații de știri precum BBC și The Wall Street Journal, au avut transcrierile videoclipurilor lor incluse în acest set de date.

EleutherAI, o organizație non-profit dedicată democratizării accesului la AI, a compilat acest set de date. Face parte dintr-o colecție mai mare cunoscută sub numele de "The Pile", care include și date din surse precum Wikipedia, discursurile Parlamentului European și e-mailurile Enron. Extracția transcrierilor YouTube pentru scopuri de antrenare AI contravine direct termenilor de serviciu ai YouTube, care interzic preluarea automată de date.

Preocupări etice și legale

Creatorii de conținut nu au fost informați și nici nu li s-a cerut consimțământul înainte ca transcrierile videoclipurilor lor să fie folosite, ceea ce a dus la frustrare și furie pe scară largă în rândul YouTuberilor care simt că munca lor a fost exploatată fără compensație.

Utilizarea neautorizată a conținutului YouTube pentru antrenarea AI ar putea duce la provocări legale, deoarece cazuri similare au fost deja depuse împotriva altor companii tehnologice pentru utilizarea materialelor protejate de drepturi de autor fără permisiune. Mulți creatori investesc timp și resurse considerabile în producerea conținutului lor, iar utilizarea neautorizată a muncii lor pentru antrenarea AI le subminează eforturile și poate afecta veniturile lor.

Proof News a subliniat că reprezentanții de la Anthropic și Salesforce au confirmat utilizarea setului de date Pile, apărându-și acțiunile prin afirmația că datele erau disponibile public. Nvidia a refuzat să comenteze, iar reprezentanții de la Apple, Databricks și Bloomberg nu au răspuns solicitărilor de comentarii. Prezența deexprimări jignitoare și prejudecăți în cadrul setului de date a născut preocupări suplimentare despre calitatea și utilizarea etică a datelor pentru antrenarea modelelor AI.

În lucrarea lor de cercetare, dezvoltatorii de la Salesforce au menționat că Pile conținea și profanități și prejudecăți împotriva genului și anumitor grupuri religioase, avertizând că aceste probleme ar putea duce la vulnerabilități și probleme de siguranță. Proof News a găsit numeroase exemple de exprimări jignitoare și injurii rasiale și de gen în cadrul setului de date.

Abigail Thorn, producătoarea canalului YouTube Philosophy Tube, și-a exprimat indignarea după ce a descoperit că materialele sale au fost folosite fără permisiune, evidențiind impactul negativ asupra muncii sale creative. Alți creatori și-au manifestat îngrijorări similare, accentuând lipsa de consimțământ și transparență în procesul de utilizare a datelor lor.

Industria tehnologică investește masiv în hardware AI, Nvidia fiind pe cale să vândă GPU-uri AI în valoare de 12 miliarde de dolari Chinei, reflectând cererea tot mai mare de capacități AI în ciuda constrângerilor de reglementare. Acest lucru subliniază presiunile pieței mai largi și arată până unde vor merge companiile pentru a obține date de antrenare.

Răspunsuri și soluții

Pentru a aborda aceste preocupări, Proof News a dezvoltat un instrument care permite YouTuberilor să verifice dacă conținutul lor a fost inclus în setul de date. Companiile precum Anthropic și Salesforce au argumentat că datele erau accesibile public, deși această poziție este în conflict cu termenii de serviciu ai YouTube. În plus, proiecte precum Nightshade de la Universitatea din Chicago explorează modalități de a proteja conținutul digital de a fi preluat de modelele AI, inclusiv tehnici de "otrăvire" a imaginilor, făcându-le mai puțin utile pentru antrenarea AI.

Google a fost, de asemenea, implicat în permiterea OpenAI să preia date de pe YouTube pentru a-și antrena modelele AI, evidențiind și mai mult necesitatea unor reglementări și ghiduri mai clare în ceea ce privește utilizarea conținutului online pentru antrenarea AI. Capacitatea de a colecta și utiliza cantități vaste de date fără cunoștința sau consimțământul creatorilor este o problemă semnificativă care trebuie abordată.

Concluzie

Faptul că peste 100.000 de videoclipuri YouTube au fost preluate pentru a antrena modele AI pentru companii precum Apple și Nvidia subliniază provocările etice și legale în curs de desfășurare în industria AI. Pe măsură ce tehnologia AI continuă să evolueze, este esențial să se stabilească reglementări și protecții mai clare pentru creatorii de conținut pentru a se asigura că munca lor nu este exploatată fără consimțământ.

Actul de Inteligență Artificială (EU AI Act) este o propunere legislativă a Uniunii Europene care vizează reglementarea tehnologiilor AI. Acesta poate rezolva problemele legate de utilizarea neautorizată de date ale videoclipurilor YouTube ca in acest caz, asigurând că asemenea practici respectă legile de protecție a datelor și drepturile de autor. Prin stabilirea unor standarde clare și promovarea transparenței în utilizarea datelor, AI Act poate proteja creatorii de conținut de exploatarea fără permisiune a muncii lor, garantând în același timp că dezvoltarea AI se face într-un mod etic și legal. Astfel, AI Act ar putea preveni incidente similare în viitor și ar crea un mediu mai echitabil pentru toți cei implicați.

Mai multe despre Legea Europeană privind AI puteți citi aici:

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp 

Abonează-te la newsletterul Republica.ro

Primește cele mai bune articole din partea autorilor.

Comentarii. Intră în dezbatere


Îți recomandăm

Green Steps

100.000 de români au participat la marcarea a 100 de kilometri din traseul Via Transilvanica într-un mod ingenios. „Drumul care unește”, este un traseu turistic de lungă distanță, care traversează România pe diagonală, de la Putna la Drobeta Turnu Severin și este destinat drumeției pe jos, cu bicicleta sau călare. Via Transilvanica este semnalizată cu marcaje vopsite și stâlpi indicatori. Pe parcursul drumeției, călătorii vizitează ceea ce constructorii spun că este cea mai lungă galerie de artă din lume, pentru că la fiecare kilometru se găsește o bornă din andezit sculptată individual.

Citește mai mult

Testat e Hot

Vreau să vă arăt azi un program inedit de educație la firul ierbii: el începe chiar pe pajiștea a două festivaluri care atrag în fiecare an zeci de mii de tineri și își propune să fie un fel de curs introductiv într-o materie pe care școala românească se jenează să o predea.

Citește mai mult

BT Go

Într-o eră în care tehnologia avansează rapid, IMM-urile sunt nevoite să adopte rapid inovații digitale pentru a rămâne competitive și a profita de oportunitățile de pe piață. Serviciile care simplifică birocrația permit antreprenorilor să se concentreze pe inovație și dezvoltarea afacerilor lor.

Citește mai mult
sound-bars icon