Google presenta l'AI generativa Lumiere per creare immagini e video più realistici a partire dal testo
Google ha presentato Lumiere, lo stato dell'arte dell'AI generativa realistica da testo a immagine e video. Il software migliora notevolmente il movimento utilizzando un approccio innovativo alla generazione di fotogrammi video che crea tutti i fotogrammi in un unico passaggio per attenuare gli errori di movimento.
L'AI generativa di immagini crea immagini dal testo. Una chiave che consente di farlo è l'enorme quantità di immagini e video online disponibili per la formazione. Un altro è lo sviluppo di metodi per associare tutte le parole di una lingua tra loro attraverso vettori. Pertanto, l'AI può capire come una coppia di parole, o in una frase, "io sono" sia più probabile di "io unilateralmente". Le AI che creano immagini, come la Diffusione Stabile, associano le parole alle immagini degli oggetti. Tale AI capisce che le parole "residenza reale" sono più strettamente associate all'immagine di un "castello" che a quella di una "casa".
L'IA generativa di video estende l'IA delle immagini per creare video dal testo. I concorrenti di Lumiere creano prima i fotogrammi chiave, poi i fotogrammi intermedi. È come se un maestro animatore disegnasse le immagini iniziali e finali di un tiro a canestro, poi un assistente disegnasse le immagini intermedie. Il problema è che spesso si verificano errori di movimento perché le immagini intermedie non sono disegnate correttamente, quindi Lumiere aggira questo problema creando tutti i fotogrammi video senza keyframing. Inoltre, Lumiere è addestrato a conoscere l'aspetto degli oggetti in movimento a varie dimensioni dell'immagine, per cui i suoi video hanno un aspetto superiore.
Tecnicamente, Lumiere utilizza modelli probabilistici di diffusione per generare immagini accoppiate con una U-Net spazio-temporale, un'architettura U-net con scalatura temporale verso l'alto e verso il basso più blocchi di attenzione aggiunti alla consueta scalatura della risoluzione dell'immagine. Il down-scaling temporale simultaneo alla risoluzione riduce significativamente i carichi di lavoro computazionali, mentre l'up-scaling accoppiato con un modello di super-risoluzione spaziale e temporalmente consapevole genera l'output ad alta risoluzione. Tuttavia, la segmentazione dei fotogrammi dell'immagine è necessaria a causa dei limiti di memoria, per cui la Multidiffusione viene utilizzata attraverso la sovrapposizione dei confini dei segmenti dei fotogrammi per contribuire a mitigare gli artefatti da movimento temporale.
Lumiere può essere accoppiato con altre AI per creare una gamma più ampia di risultati. Questo include:
- Cinemagraphs - viene animata una sezione di un'immagine
- Inpainting - un oggetto in un video viene sostituito da un altro
- Generazione stilizzata - l'aspetto viene ricreato in un altro stile artistico
- Da immagine a video - viene animata un'immagine desiderata
- Da video a video - i video vengono ricreati in un altro stile artistico
La lunghezza del video è limitata a 5 secondi, mentre la capacità di creare transizioni video e angolazioni multiple della telecamera sono inesistenti. I lettori interessati a sperimentare l'IA generativa sul proprio computer desktop dovrebbero passare a una scheda video potente(come questa su Amazon) per ottenere le migliori prestazioni durante l'addestramento.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones