Sari la continut

Vorbește cu Republica și ascultă editorialele audio

Vă mulțumim că ne sunteți alături de nouă ani Ascultați editorialele audio publicate pe platformă. Un proiect de inovație în tehnologie susținut de DEDEMAN.

Peste 100.000 de videoclipuri YouTube utilizate pentru a antrena AI Generativ pentru Apple, Nvidia, Anthropic și Salesforce

Antrenarea AI pe YouTube

Investigațiile recente au dezvăluit că mari companii tehnologice, inclusiv Apple, Nvidia, Anthropic și Salesforce, au folosit transcrieri din peste 173.000 de videoclipuri YouTube pentru a-și antrena modelele de inteligență artificială. Această practică a ridicat preocupări etice și legale semnificative, în special deoarece pare să încalce termenii de serviciu ai YouTube.

Constatări - cheie

Setul de date, cunoscut sub numele de "YouTube Subtitles", include transcrieri din mai mult de 173.000 de videoclipuri YouTube de pe peste 48.000 de canale. Creatori proeminenți de pe YouTube, precum MrBeast, Marques Brownlee și John Oliver, alături de mari organizații de știri precum BBC și The Wall Street Journal, au avut transcrierile videoclipurilor lor incluse în acest set de date.

EleutherAI, o organizație non-profit dedicată democratizării accesului la AI, a compilat acest set de date. Face parte dintr-o colecție mai mare cunoscută sub numele de "The Pile", care include și date din surse precum Wikipedia, discursurile Parlamentului European și e-mailurile Enron. Extracția transcrierilor YouTube pentru scopuri de antrenare AI contravine direct termenilor de serviciu ai YouTube, care interzic preluarea automată de date.

Preocupări etice și legale

Creatorii de conținut nu au fost informați și nici nu li s-a cerut consimțământul înainte ca transcrierile videoclipurilor lor să fie folosite, ceea ce a dus la frustrare și furie pe scară largă în rândul YouTuberilor care simt că munca lor a fost exploatată fără compensație.

Utilizarea neautorizată a conținutului YouTube pentru antrenarea AI ar putea duce la provocări legale, deoarece cazuri similare au fost deja depuse împotriva altor companii tehnologice pentru utilizarea materialelor protejate de drepturi de autor fără permisiune. Mulți creatori investesc timp și resurse considerabile în producerea conținutului lor, iar utilizarea neautorizată a muncii lor pentru antrenarea AI le subminează eforturile și poate afecta veniturile lor.

Proof News a subliniat că reprezentanții de la Anthropic și Salesforce au confirmat utilizarea setului de date Pile, apărându-și acțiunile prin afirmația că datele erau disponibile public. Nvidia a refuzat să comenteze, iar reprezentanții de la Apple, Databricks și Bloomberg nu au răspuns solicitărilor de comentarii. Prezența deexprimări jignitoare și prejudecăți în cadrul setului de date a născut preocupări suplimentare despre calitatea și utilizarea etică a datelor pentru antrenarea modelelor AI.

În lucrarea lor de cercetare, dezvoltatorii de la Salesforce au menționat că Pile conținea și profanități și prejudecăți împotriva genului și anumitor grupuri religioase, avertizând că aceste probleme ar putea duce la vulnerabilități și probleme de siguranță. Proof News a găsit numeroase exemple de exprimări jignitoare și injurii rasiale și de gen în cadrul setului de date.

Abigail Thorn, producătoarea canalului YouTube Philosophy Tube, și-a exprimat indignarea după ce a descoperit că materialele sale au fost folosite fără permisiune, evidențiind impactul negativ asupra muncii sale creative. Alți creatori și-au manifestat îngrijorări similare, accentuând lipsa de consimțământ și transparență în procesul de utilizare a datelor lor.

Industria tehnologică investește masiv în hardware AI, Nvidia fiind pe cale să vândă GPU-uri AI în valoare de 12 miliarde de dolari Chinei, reflectând cererea tot mai mare de capacități AI în ciuda constrângerilor de reglementare. Acest lucru subliniază presiunile pieței mai largi și arată până unde vor merge companiile pentru a obține date de antrenare.

Răspunsuri și soluții

Pentru a aborda aceste preocupări, Proof News a dezvoltat un instrument care permite YouTuberilor să verifice dacă conținutul lor a fost inclus în setul de date. Companiile precum Anthropic și Salesforce au argumentat că datele erau accesibile public, deși această poziție este în conflict cu termenii de serviciu ai YouTube. În plus, proiecte precum Nightshade de la Universitatea din Chicago explorează modalități de a proteja conținutul digital de a fi preluat de modelele AI, inclusiv tehnici de "otrăvire" a imaginilor, făcându-le mai puțin utile pentru antrenarea AI.

Google a fost, de asemenea, implicat în permiterea OpenAI să preia date de pe YouTube pentru a-și antrena modelele AI, evidențiind și mai mult necesitatea unor reglementări și ghiduri mai clare în ceea ce privește utilizarea conținutului online pentru antrenarea AI. Capacitatea de a colecta și utiliza cantități vaste de date fără cunoștința sau consimțământul creatorilor este o problemă semnificativă care trebuie abordată.

Concluzie

Faptul că peste 100.000 de videoclipuri YouTube au fost preluate pentru a antrena modele AI pentru companii precum Apple și Nvidia subliniază provocările etice și legale în curs de desfășurare în industria AI. Pe măsură ce tehnologia AI continuă să evolueze, este esențial să se stabilească reglementări și protecții mai clare pentru creatorii de conținut pentru a se asigura că munca lor nu este exploatată fără consimțământ.

Actul de Inteligență Artificială (EU AI Act) este o propunere legislativă a Uniunii Europene care vizează reglementarea tehnologiilor AI. Acesta poate rezolva problemele legate de utilizarea neautorizată de date ale videoclipurilor YouTube ca in acest caz, asigurând că asemenea practici respectă legile de protecție a datelor și drepturile de autor. Prin stabilirea unor standarde clare și promovarea transparenței în utilizarea datelor, AI Act poate proteja creatorii de conținut de exploatarea fără permisiune a muncii lor, garantând în același timp că dezvoltarea AI se face într-un mod etic și legal. Astfel, AI Act ar putea preveni incidente similare în viitor și ar crea un mediu mai echitabil pentru toți cei implicați.

Mai multe despre Legea Europeană privind AI puteți citi aici:

Urmăriți Republica pe Google News

Urmăriți Republica pe Threads

Urmăriți Republica pe canalul de WhatsApp 

Abonează-te la newsletterul Republica.ro

Primește cele mai bune articole din partea autorilor.

Comentarii. Intră în dezbatere


Îți recomandăm

Eugen Rădulescu

Terminasem anul I de facultate când “poporul” ne-a trimis să construim, patriotic, Canalul Dunăre- Marea Neagră, toată vara anului 1979. În colonia unde ne duceam existenţa erau multe categorii de oameni; unii erau mai certăreţi şi aveau un “je ne sais quoi” împotriva studenţilor din aceeaşi tabără. Aşa că profesorul care ne însoţea avea, printre altele, misiunea de a aplana un conflict mocnit între “noi” şi “ei”.

Citește mai mult

articol audio
play icon mic icon Campionatul Mondial 2026 / sursa foto: Profimedia

Cupa Mondială organizată în SUA, Canada și Mexic în câteva zile poate genera o activitate economică de peste 30 de miliarde de dolari, au estimat analiștii FIFA, care se bazează pe valul de turiști cu venituri ridicate. Totuși, în realitate, este posibil ca cifrele să zugrăvească un alt tip de tablou, având în vedere actuala situație economică. foto: Profimedia

Citește mai mult

Oana Gheorghiu / sursa foto: Facebook

Vice-premierul Oana Gheorghiu a postat un mesaj pe Facebook, un așa-numit „autodenunț”, după ce Consiliul Superior al Magistraturii, Secția pentru judecători, a inclus-o într-un document, ca exemplu al modului în care „a fost construit discursul denigrator (n.a. la adresa instituției), de la cel mai înalt nivel politic al coaliţiei de guvernare”.

Citește mai mult

Imagine cu bancnote de lei și Euro. Foto: Inquam Photos / Alberto Groşescu

Asociația Română a Băncilor (ARB) solicită public Consiliului Concurenței să ofere explicații concrete privind stabilirea vinovăției fără dovezi și comunicarea publică care provoacă confuzie. Foto: Inquam Photos / Alberto Groşescu

Citește mai mult

spaceX listare

SpaceX urmează să se listeze la bursă, vineri, într-o sesiune care se anunță deosebit de interesantă, după o ofertă istorică de 75 de miliarde de dolari. Compania ar urma să utilizeze fondurile pentru constelația de sateliți, vehicule spațiale și infrastructură de AI. O tranșă de 20 de miliarde dolari ar urma să acopere un împrumut anterior. (O reprezentare de circa 12 metri a lui Elon Musk a fost amplasată în Times Square înaintea IPO-ului SpaceX la Nasdaq / Foto: Profimedia)

Citește mai mult