Crea immagini AI 30 volte più velocemente: Dall-E 3 e Diffusione stabile lasciati alle spalle

30 volte più veloce, ma anche buono: DMD. (Immagine: github/tianweiy)

Un team del MIT ha abbreviato i processi in più fasi dei famosi generatori di immagini AI. Questo non solo riduce il tempo necessario per produrre l'immagine finita. Anche la potenza di calcolo e il consumo energetico richiesti si riducono allo stesso ritmo.

Mario Petzold (traduzione a cura di Ninh Duy), Pubblicato 03/25/2024 🇺🇸 🇩🇪 ...

AI Science

La magia di Dall-E o della Diffusione Stabile dovrebbe essere ormai familiare. Da una breve descrizione della scena, del contenuto e forse di uno o due commenti, emerge un'immagine più o meno realistica. Fortunatamente, di solito si riconosce che si tratta di un lavoro generato dall'AI, ma serve anche al suo scopo: non devo mettere un cane su una tavola da surf o una volpe in una tuta da astronauta. L'immagine desiderata è a pochi clic di distanza.

In background, tuttavia, si tratta di un processo computazionalmente intensivo che consiste in numerose iterazioni, ripetizioni costanti dell'algoritmo per arrivare finalmente all'immagine desiderata. I ricercatori del MIT, tuttavia, sono riusciti a rinunciare a questi numerosi passaggi intermedi. Invece, la scena descritta viene creata dopo un solo passaggio.

Questo permette di ottenere un risultato paragonabile, riducendo in modo significativo la potenza di calcolo o i tempi di attesa necessari. Allo stesso tempo, è necessaria meno energia per gestire il sistema chiamato "Distribution Matching Distillation (DMD)".

Per dirla in modo più figurato: le immagini utilizzate per la formazione vengono suddivise in aree più grossolane. Questo determina la composizione approssimativa dell'immagine a seconda del soggetto. Inoltre, viene analizzata la probabilità dei vari elementi dell'immagine, per ottenere alla fine una scena coerente.

In definitiva, le informazioni dettagliate e la complessità vengono ridotte, in modo che il generatore di immagini diventi semplicemente più veloce. Invece di 2 o 3 secondi per immagine, lo stesso hardware impiega circa 100 millisecondi - un trentesimo.

Se si osservano attentamente le immagini, la riduzione dei dettagli è chiaramente visibile. Gli sfondi sono leggermente sfocati e gli elementi dell'immagine possono essere ripetuti. I motivi possono comunque avere un aspetto significativamente migliore in alcuni casi e sono ancora più facili da riconoscere come un lavoro complessivo di intelligenza artificiale, o almeno artificiale. Un altro effetto positivo.

Oltre alla volpe astronauta, molti altri esempi del modello DMD si possono trovare qui https://tianweiy.github.io/dmd/.