Sari la continut

Vorbește cu Republica și ascultă editorialele audio

Vă mulțumim că ne sunteți alături de nouă ani Ascultați editorialele audio publicate pe platformă. Un proiect de inovație în tehnologie susținut de DEDEMAN.

Peste 100.000 de videoclipuri YouTube utilizate pentru a antrena AI Generativ pentru Apple, Nvidia, Anthropic și Salesforce

Antrenarea AI pe YouTube

Investigațiile recente au dezvăluit că mari companii tehnologice, inclusiv Apple, Nvidia, Anthropic și Salesforce, au folosit transcrieri din peste 173.000 de videoclipuri YouTube pentru a-și antrena modelele de inteligență artificială. Această practică a ridicat preocupări etice și legale semnificative, în special deoarece pare să încalce termenii de serviciu ai YouTube.

Constatări - cheie

Setul de date, cunoscut sub numele de "YouTube Subtitles", include transcrieri din mai mult de 173.000 de videoclipuri YouTube de pe peste 48.000 de canale. Creatori proeminenți de pe YouTube, precum MrBeast, Marques Brownlee și John Oliver, alături de mari organizații de știri precum BBC și The Wall Street Journal, au avut transcrierile videoclipurilor lor incluse în acest set de date.

EleutherAI, o organizație non-profit dedicată democratizării accesului la AI, a compilat acest set de date. Face parte dintr-o colecție mai mare cunoscută sub numele de "The Pile", care include și date din surse precum Wikipedia, discursurile Parlamentului European și e-mailurile Enron. Extracția transcrierilor YouTube pentru scopuri de antrenare AI contravine direct termenilor de serviciu ai YouTube, care interzic preluarea automată de date.

Preocupări etice și legale

Creatorii de conținut nu au fost informați și nici nu li s-a cerut consimțământul înainte ca transcrierile videoclipurilor lor să fie folosite, ceea ce a dus la frustrare și furie pe scară largă în rândul YouTuberilor care simt că munca lor a fost exploatată fără compensație.

Utilizarea neautorizată a conținutului YouTube pentru antrenarea AI ar putea duce la provocări legale, deoarece cazuri similare au fost deja depuse împotriva altor companii tehnologice pentru utilizarea materialelor protejate de drepturi de autor fără permisiune. Mulți creatori investesc timp și resurse considerabile în producerea conținutului lor, iar utilizarea neautorizată a muncii lor pentru antrenarea AI le subminează eforturile și poate afecta veniturile lor.

Proof News a subliniat că reprezentanții de la Anthropic și Salesforce au confirmat utilizarea setului de date Pile, apărându-și acțiunile prin afirmația că datele erau disponibile public. Nvidia a refuzat să comenteze, iar reprezentanții de la Apple, Databricks și Bloomberg nu au răspuns solicitărilor de comentarii. Prezența deexprimări jignitoare și prejudecăți în cadrul setului de date a născut preocupări suplimentare despre calitatea și utilizarea etică a datelor pentru antrenarea modelelor AI.

În lucrarea lor de cercetare, dezvoltatorii de la Salesforce au menționat că Pile conținea și profanități și prejudecăți împotriva genului și anumitor grupuri religioase, avertizând că aceste probleme ar putea duce la vulnerabilități și probleme de siguranță. Proof News a găsit numeroase exemple de exprimări jignitoare și injurii rasiale și de gen în cadrul setului de date.

Abigail Thorn, producătoarea canalului YouTube Philosophy Tube, și-a exprimat indignarea după ce a descoperit că materialele sale au fost folosite fără permisiune, evidențiind impactul negativ asupra muncii sale creative. Alți creatori și-au manifestat îngrijorări similare, accentuând lipsa de consimțământ și transparență în procesul de utilizare a datelor lor.

Industria tehnologică investește masiv în hardware AI, Nvidia fiind pe cale să vândă GPU-uri AI în valoare de 12 miliarde de dolari Chinei, reflectând cererea tot mai mare de capacități AI în ciuda constrângerilor de reglementare. Acest lucru subliniază presiunile pieței mai largi și arată până unde vor merge companiile pentru a obține date de antrenare.

Răspunsuri și soluții

Pentru a aborda aceste preocupări, Proof News a dezvoltat un instrument care permite YouTuberilor să verifice dacă conținutul lor a fost inclus în setul de date. Companiile precum Anthropic și Salesforce au argumentat că datele erau accesibile public, deși această poziție este în conflict cu termenii de serviciu ai YouTube. În plus, proiecte precum Nightshade de la Universitatea din Chicago explorează modalități de a proteja conținutul digital de a fi preluat de modelele AI, inclusiv tehnici de "otrăvire" a imaginilor, făcându-le mai puțin utile pentru antrenarea AI.

Google a fost, de asemenea, implicat în permiterea OpenAI să preia date de pe YouTube pentru a-și antrena modelele AI, evidențiind și mai mult necesitatea unor reglementări și ghiduri mai clare în ceea ce privește utilizarea conținutului online pentru antrenarea AI. Capacitatea de a colecta și utiliza cantități vaste de date fără cunoștința sau consimțământul creatorilor este o problemă semnificativă care trebuie abordată.

Concluzie

Faptul că peste 100.000 de videoclipuri YouTube au fost preluate pentru a antrena modele AI pentru companii precum Apple și Nvidia subliniază provocările etice și legale în curs de desfășurare în industria AI. Pe măsură ce tehnologia AI continuă să evolueze, este esențial să se stabilească reglementări și protecții mai clare pentru creatorii de conținut pentru a se asigura că munca lor nu este exploatată fără consimțământ.

Actul de Inteligență Artificială (EU AI Act) este o propunere legislativă a Uniunii Europene care vizează reglementarea tehnologiilor AI. Acesta poate rezolva problemele legate de utilizarea neautorizată de date ale videoclipurilor YouTube ca in acest caz, asigurând că asemenea practici respectă legile de protecție a datelor și drepturile de autor. Prin stabilirea unor standarde clare și promovarea transparenței în utilizarea datelor, AI Act poate proteja creatorii de conținut de exploatarea fără permisiune a muncii lor, garantând în același timp că dezvoltarea AI se face într-un mod etic și legal. Astfel, AI Act ar putea preveni incidente similare în viitor și ar crea un mediu mai echitabil pentru toți cei implicați.

Mai multe despre Legea Europeană privind AI puteți citi aici:

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp 

Abonează-te la newsletterul Republica.ro

Primește cele mai bune articole din partea autorilor.

Comentarii. Intră în dezbatere


Îți recomandăm

Ferma Cernat

În ciuda tuturor costurilor și dificultăților, am simțit la acești oameni o dragoste profundă pentru pământul care ne hrănește pe toți. „Banii au un singur dezavantaj: nu se pot mânca”, râde dl. Moldovan.

Citește mai mult

articol audio
play icon mic icon Shelly la BT Talks

În cel mai nou episod al podcastului economic al Băncii Transilvania, BT Business Talks, am stat de vorbă cu Andrei „Selly” Șelaru despre transformarea din creator de conținut în antreprenor, despre Beach, Please și despre Nibiru – proiectul unei stațiuni private lângă Costinești, gândită ca o platformă de divertisment cu standarde unitare, mix de evenimente și o infrastructură permanentă.

Citește mai mult

Guvernul Ciolacu 2 și Iohannis

Efectele catastrofale ale guvernului-rotativă, cu premierii Ciucă - Ciolacu și miniștrii de Finanțe Cîciu - Boloș, ultimii învârtiți apoi pe la Fonduri Europene, se văd cu ochiul liber. În 2025, 7% din veniturile bugetare totale merg spre plata dobânzilor pentru datoriile contractate de România, față de 5% în 2024.

Citește mai mult

 Chris M

Pentru Chris Simion-Mercurian, scriitoarea și regizoarea de teatru care a pornit visul, și pentru partenerul ei, Tiberiu Simion-Mercurian, întreaga călătorie a însemnat nouă ani de eforturi, sacrificii și momente de criză, dar și întâlniri și emoții imposibil de trăit altfel. „Nouă ani a durat. A început în 2016. A fost foarte complicat. Și foarte impredictibil.

Citește mai mult

Theodor Paleologu, diplomat și președinte al Fundației Paleologu. Foto: Inquam Photos / Bogdan Buda

Pe fondul ascensiunii extremismului la nivel mondial, mulți se întreabă acum ce s-a întâmplat cu societatea și de unde a ieșit la lumină ura aceasta aproape perceptibilă fizic între oameni care nici nu se cunosc personal. Căci trăim, iată, vremuri în care amenințarea și injuriile sunt elemente la ordinea zilei. Mulți aproape că le ignoră, pentru că, pe nesimțite, ele s-au normalizat. Drumul de aici la agresivitate fizică e scurt. Și asupra acestui pericol atrag atenția mulți oameni ai cărților, care știu din istorie ce se întâmplă cu societățile în astfel de perioade.

Citește mai mult