Google presenta l'AI generativa Lumiere per creare immagini e video più realistici a partire dal testo

Google presenta Lumiere, l'ultima novità dell'AI generativa che crea video realistici a partire da un testo. (Fonte: Google Research)

Google ha presentato Lumiere - l'ultima novità nella generazione realistica di testo-immagine e testo-video utilizzando l'apprendimento automatico. Un'innovazione chiave è la capacità di creare movimenti realistici, come la camminata, che le attuali AI generative hanno difficoltà a gestire. Il software lo fa creando tutti i fotogrammi del video in una sola volta, anziché utilizzare i fotogrammi chiave e l'addestramento per imparare come dovrebbero apparire gli oggetti in movimento.

David Chien (traduzione a cura di Ninh Duy), Pubblicato 01/31/2024 🇺🇸 🇩🇪 ...

Google ha presentato Lumiere, lo stato dell'arte dell'AI generativa realistica da testo a immagine e video. Il software migliora notevolmente il movimento utilizzando un approccio innovativo alla generazione di fotogrammi video che crea tutti i fotogrammi in un unico passaggio per attenuare gli errori di movimento.

L'AI generativa di immagini crea immagini dal testo. Una chiave che consente di farlo è l'enorme quantità di immagini e video online disponibili per la formazione. Un altro è lo sviluppo di metodi per associare tutte le parole di una lingua tra loro attraverso vettori. Pertanto, l'AI può capire come una coppia di parole, o in una frase, "io sono" sia più probabile di "io unilateralmente". Le AI che creano immagini, come la Diffusione Stabile, associano le parole alle immagini degli oggetti. Tale AI capisce che le parole "residenza reale" sono più strettamente associate all'immagine di un "castello" che a quella di una "casa".

L'IA generativa di video estende l'IA delle immagini per creare video dal testo. I concorrenti di Lumiere creano prima i fotogrammi chiave, poi i fotogrammi intermedi. È come se un maestro animatore disegnasse le immagini iniziali e finali di un tiro a canestro, poi un assistente disegnasse le immagini intermedie. Il problema è che spesso si verificano errori di movimento perché le immagini intermedie non sono disegnate correttamente, quindi Lumiere aggira questo problema creando tutti i fotogrammi video senza keyframing. Inoltre, Lumiere è addestrato a conoscere l'aspetto degli oggetti in movimento a varie dimensioni dell'immagine, per cui i suoi video hanno un aspetto superiore.

Tecnicamente, Lumiere utilizza modelli probabilistici di diffusione per generare immagini accoppiate con una U-Net spazio-temporale, un'architettura U-net con scalatura temporale verso l'alto e verso il basso più blocchi di attenzione aggiunti alla consueta scalatura della risoluzione dell'immagine. Il down-scaling temporale simultaneo alla risoluzione riduce significativamente i carichi di lavoro computazionali, mentre l'up-scaling accoppiato con un modello di super-risoluzione spaziale e temporalmente consapevole genera l'output ad alta risoluzione. Tuttavia, la segmentazione dei fotogrammi dell'immagine è necessaria a causa dei limiti di memoria, per cui la Multidiffusione viene utilizzata attraverso la sovrapposizione dei confini dei segmenti dei fotogrammi per contribuire a mitigare gli artefatti da movimento temporale.

Lumiere può essere accoppiato con altre AI per creare una gamma più ampia di risultati. Questo include:

Cinemagraphs - viene animata una sezione di un'immagine
Inpainting - un oggetto in un video viene sostituito da un altro
Generazione stilizzata - l'aspetto viene ricreato in un altro stile artistico
Da immagine a video - viene animata un'immagine desiderata
Da video a video - i video vengono ricreati in un altro stile artistico

La lunghezza del video è limitata a 5 secondi, mentre la capacità di creare transizioni video e angolazioni multiple della telecamera sono inesistenti. I lettori interessati a sperimentare l'IA generativa sul proprio computer desktop dovrebbero passare a una scheda video potente(come questa su Amazon) per ottenere le migliori prestazioni durante l'addestramento.

Lumiere può creare immagini e video a partire da un testo, stilizzato in base a un'altra arte, e persino sostituire gli oggetti. (Fonte: Google Research)

Lumiere può animare una parte di un'immagine e l'output può essere inserito facilmente in altre AI. (Fonte: Google Research)

▶ load Youtube video

Fonte(i)

Ricerca Google - Lumiere Inbar Mosseri su YouTube

Articoli collegati

'Bard' potrebbe presto diventare 'Gemini' (Fonte: Google Blog)

Google ribattezzerà Bard come 'Gemini' e rilascerà un'applicazione 02/05/2024

Un'immagine di "moda steampunk" creata da Bard. (Fonte: Google)

Google Bard aggiorna la generazione di immagini e la chat in più lingue 02/03/2024

Il Pixel 8 Pro nella sua nuova opzione di colore 'Mint'. (Fonte: Google)

Google rilascia nuove opzioni di colore per Pixel 8 e Pixel 8 Pro con bonus di lancio 01/26/2024

Il Pixel 8 Pro ha ricevuto diverse nuove funzioni con il Pixel Feature Drop di questo mese. (Fonte: Notebookcheck)

Gennaio 2024 Pixel Feature Drop arriva per gli smartphone Google Pixel 5a e Pixel 6 in poi, con cambiamenti anche per gli smartwatch Pixel Watch e Pixel Watch 2 01/26/2024

Il Pixel Watch 2 è uno dei pochi smartwatch che eseguono il sistema operativo vanilla Wear OS 4 fuori dalla scatola. (Fonte: Notebookcheck)

Google e Samsung si dice che stiano sviluppando Wear OS 5 basato su Android per Galaxy Watch7, Pixel Watch 3 e altri smartwatch 01/25/2024

Il Pixel 9 potrebbe essere il primo piccolo flagship di Google con tre fotocamere posteriori. (Fonte immagine: @OnLeaks)

Google Pixel 9 svelato con Apple elementi di design dell'iPhone, fotocamera con zoom periscopico e possibile sensore di temperatura 01/25/2024

La funzione Pixel drop permette a Google Pixel 8 Pro di leggere la temperatura corporea (Fonte: Google)

Google Pixel 8 Pro ottiene finalmente la capacità di leggere la temperatura corporea 01/25/2024

Il nuovo modulo fotocamera del Pixel 9 Pro si adatta meglio alle custodie protettive. (Immagine: Gizmochina)

Google Pixel 9 Pro: La custodia protettiva accentua il nuovissimo design dell'ammiraglia Google 01/25/2024

Il Pixel 7a è limitato a 18 W di ricarica. (Fonte: Google)

La confezione trapelata di Google Pixel 8a conferma il design e la ricarica migliorata 01/24/2024

L'AYANEO FLIP diventa il primo palm...

L'ambiente desktop Linux KDE Plasma...

Editor of the original article: David Chien - Tech Writer - 525 articles published on Notebookcheck since 2023

Translator: Ninh Ngoc Duy - Editorial Assistant - 521685 articles published on Notebookcheck since 2008

contact me via: Facebook

Please share our article, every link counts!

> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 01 > Google presenta l'AI generativa Lumiere per creare immagini e video più realistici a partire dal testo

David Chien, 2024-01-31 (Update: 2024-08-15)