Le comunicazioni interne trapelate rivelano che Nvidia raccoglie ogni giorno una vita di video di YouTube per addestrare il modello di AI video, e Jensen è soddisfatta dei progressi

Gli ingegneri di Nvidia stanno effettuando lo scraping di video da YouTube e da altre fonti per addestrare il modello di fondazione video Cosmos dell'azienda. (Fonte: Nvidia)

Le comunicazioni interne di Nvidia su Slack, ottenute da 404 Media, hanno rivelato che il personale dell'azienda che lavora al modello di fondazione video Cosmos ha finora raccolto 38,5 milioni di ore di video da varie fonti, principalmente da YouTube. I dipendenti hanno evidenziato i possibili problemi di copyright, ma i dirigenti più in alto hanno apparentemente dato un'"approvazione generale" per andare avanti e raccogliere i contenuti.

Vaidyanathan Subramaniam (traduzione a cura di Ninh Duy), Pubblicato 08/06/2024 🇺🇸 🇫🇷 ...

AI Cyberlaw Nvidia

Nvidia sta addestrando il suo Omniverse, le auto a guida autonoma e le auto "umane digitali" sulla base dei dati raccolti da "80 anni di video al giorno" da YouTube e altre fonti, come ha rivelato un'indagine di 404 Media.

Le comunicazioni interne trapelate, ottenute da 404 Media, indicano che Nvidia sta usando questi dati per addestrare il suo modello di mondo video AI denominato Cosmos (da non confondere con il servizio di apprendimento profondo esistente dell'azienda Cosmos). Cosmos è internamente destinato ad essere un modello che alimenterà altre linee di Nvidia, tra cui GeForce, l'architettura GPU, DGX, i framework di Deep Learning, Omniverse, Avatar, Project GR00T e i veicoli autonomi.

I dirigenti di Nvidia hanno definito Cosmos come un modello di base all'avanguardia"che incapsula la simulazione del trasporto della luce, la fisica e l'intelligenza in un unico luogo per sbloccare varie applicazioni a valle fondamentali per Nvidia"

404 Media ha avuto accesso ai messaggi Slack dei dipendenti interni che hanno rivelato come il personale abbia utilizzato il programma a riga di comando yt-dlp per scaricare i video di YouTube utilizzando da 20 a 30 macchine virtuali AWS che aggiornano gli indirizzi IP per evitare di essere bloccati da YouTube. Il sito di condivisione video è stato la fonte principale per lo scraping dei video, con i dipendenti che hanno preso in considerazione anche altre fonti come Netflix e Discovery Channel.

Le comunicazioni su Slack mostrano i dipendenti che discutono delle ramificazioni legali dello scraping di contenuti protetti da copyright per addestrare l'AI, per poi essere liquidati dai responsabili del progetto come una decisione esecutiva, di cui non devono preoccuparsi.

I canali YouTube popolari che i dipendenti di Nvidia hanno inserito nella lista includono MKBHD, PickUpLimes, Architectural Digest, Expedia, Mediastorm6801, 8kEarth e The CriticalDrinker, tra gli altri.

Contattati da 404 Media, sia YouTube che Netflix hanno dichiarato che lo scraping di contenuti sulle loro piattaforme per addestrare modelli di intelligenza artificiale è una chiara violazione dei loro termini di servizio.

L'uso di dati protetti da copyright per addestrare modelli di AI è ancora una zona grigia dal punto di vista legale. I dataset pubblici come InternVid-10M HD-VG-130Me altri basati su milioni di video di YouTube, ma sono destinati solo alla ricerca accademica e non a scopi commerciali. Anche se Nvidia dispone di ricercatori accademici, i risultati finiranno per diventare prodotti commerciali.

Ci sono state poche legislazioni che prevedono standard di trasparenza e l'obbligo per le aziende che lavorano su modelli di AI fondamentali di collaborare con l'FTC e l'Ufficio del Copyright. Ma le aziende non divulgano necessariamente i loro set di dati di origine, il che rende molto più difficile la verifica.

Poiché le principali aziende di AI continuano a mettere le mani su tutti i dati pubblici disponibili per addestrare modelli più efficaci, le modifiche legislative sono una necessità impellente per garantire la sicurezza dei consumatori e proteggere la proprietà intellettuale dei creatori.

L'anno scorso, il New York Times ha citato in giudizio OpenAI e Microsoft per l'uso non autorizzato degli articoli protetti da copyright della pubblicazione per addestrare i modelli di AI. A maggio, gli artisti visivi hanno intentato una causa contro Stability AI, Midjourney, DeviantArt e Runway AI per aver utilizzato copie del loro lavoro per addestrare modelli AI senza autorizzazione.

YouTube si sta rivelando una miniera di dati per le aziende di AI. Recentemente, Wired ha riferito che i pesi massimi, tra cui Apple, Nvidia, Anthropic e Salesforce, hanno raschiato i sottotitoli di 173.536 video di YouTube da oltre 48.000 canali per addestrare le loro AI.

Fino alla fine di maggio, il personale di Nvidia ha annunciato internamente di aver raccolto 38,5 milioni di URL di video, la maggior parte dei quali erano contenuti cinematografici. Gli ingegneri hanno anche aggiunto set di dati come Ego-Exo4D Ego4D, HOI4De i dati di gioco di GeForce Now.

Mentre Ego-Exo4D ed Ego4D possono essere concessi in licenza per uso accademico e commerciale, HOI4D è distribuito con una licenza CC BY-NC che vieta espressamente l'uso commerciale.

Il team sta attualmente addestrando un modello 1B con 16 nodi ciascuno, con l'intenzione di scalare fino a 10B.

Nvidia ha dichiarato a 404 Media via e-mail:"I nostri modelli e i nostri sforzi di ricerca sono in piena conformità con la lettera e lo spirito della legge sul copyright"

Nel frattempo, il CEO di Nvidia Jensen Huang sembra essere soddisfatto dei progressi che il suo staff sta facendo.

Secondo quanto riferito, ha esclamato: "Ottimo aggiornamento. Molte aziende devono costruire video FM [modelli fondazionali]. Noi possiamo offrire una pipeline completamente accelerata"

I set di dati indicati per la formazione di Cosmos da Francesco Ferroni, scienziato principale di Nvidia. (Fonte: 404 Media)

Canali YouTube popolari raccomandati dal personale Nvidia per la formazione di Cosmos. (Fonte: 404 Media)

Grafico che illustra la distribuzione dei video compilato da 38,5 milioni di URL. (Fonte: 404 Media)

SCOOP from @samleecole: Leaked Slacks and documents show the incredible scale of NVidia's AI scraping: 80 years — "a human lifetime" of videos every day. Had approval from highest levels of company despite staff legal/ethical concerns:https://t.co/DydXOyffUQ
— Jason Koebler (@jason_koebler) August 5, 2024

Fonte(i)

404 Media (richiede l'iscrizione)

@jason_koebler su X

Articoli collegati

50 W TGP e nessun connettore di alimentazione (Fonte immagine: PNY)

La scheda per workstation desktop a slot singolo Nvidia RTX 2000E ADA è stata presentata in sordina come processore AI ad alta efficienza energetica 08/16/2024

Zeromouse V35 è un mouse da gioco incredibilmente leggero e minimalista, che richiede un certo assemblaggio. (Fonte: Zeromouse)

Lo YouTuber costruisce il mouse da gioco ultraleggero Zerømouse da 16 g con i componenti Razer Viper V2 Pro 08/16/2024

Nvidia Shield TV Pro ha uno sconto del 15% su Amazon (Fonte: Nvidia)

La Nvidia Shield TV Pro con hardware identico a quello della Nintendo Switch scende a un prezzo da record 08/11/2024

è in arrivo una eGPU con GPU ultraportatile Nvidia RTX serie 40 (Fonte: Notebookcheck)

Il produttore conferma la nuova eGPU Nvidia RTX serie 40 con la GPU serie M non ancora presentata 08/08/2024

Nvidia RTX 3060 è attualmente la GPU più popolare nell'elenco del sondaggio hardware di Steam (Fonte: Nvidia)

Un insider sostiene che Nvidia ha silenziosamente interrotto l'attuale GPU più popolare 08/05/2024

Nvidia ha lanciato la RTX 4080 nel novembre 2022 al prezzo di 1.199 dollari. (Fonte immagine: Notebookcheck, Ally Griffin su Unsplash, modificato)

I giocatori saranno colpiti da aumenti di prezzo della serie RTX 40, poiché Nvidia avrebbe avviato un taglio massiccio della fornitura 08/02/2024

Un noto leaker afferma che Nvidia ha in preparazione almeno una SKU Titan basata su Blackwell (fonte: Nvidia)

Si dice che la linea Nvidia Titan tornerà in auge con Blackwell 07/23/2024

Una RTX 5090D esclusiva per la Cina potrebbe essere rilasciata già a gennaio del prossimo anno. (Fonte: Nvidia)

Secondo quanto riferito, Nvidia sta sviluppando GeForce RTX 5090D per il mercato cinese 07/22/2024

Le schede della serie Nvidia GeForce RTX 40 hanno problemi di prestazioni a causa di una pasta inferiore (Fonte: Nvidia)

Le schede della serie Nvidia GeForce RTX 40 raggiungono più di 212°F: la pasta termica a basso costo degrada le prestazioni 07/22/2024

Il modulo eGPU di Khadas Mind Graphics può fornire fino a 128 GT/s di trasmissione dati (fonte: Khadas)

Il modulo eGPU di Khadas Mind Graphics contiene una Nvidia RTX 4060 Ti per desktop 07/16/2024

La fotocatalisi estremamente effici...

I chip HBM3E a 8 strati di Samsung ...

Editor of the original article: Vaidyanathan Subramaniam - Managing Editor - 1997 articles published on Notebookcheck since 2012

contact me via: @Geeky_Vaidy

Translator: Ninh Ngoc Duy - Editorial Assistant - 521685 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 08 > Le comunicazioni interne trapelate rivelano che Nvidia raccoglie ogni giorno una vita di video di YouTube per addestrare il modello di AI video, e Jensen è soddisfatta dei progressi

Vaidyanathan Subramaniam, 2024-08- 6 (Update: 2024-08- 6)