CheckMag | Come ospitare il proprio generatore di immagini AI con Invoke AI e Diffusione stabile

Invoke AI è un modo indolore per eseguire una serie di modelli di generazione di immagini sul proprio hardware (Fonte: Invoke AI)

Esistono diversi strumenti che le permettono di sfruttare il proprio generatore di immagini AI senza affidarsi ai servizi cloud, che spesso sono a pagamento e presentano tutta una serie di limitazioni. Tuttavia, Invoke AI le consente di eseguire una serie di modelli e strumenti, tra cui la Diffusione Stabile, permettendole di generare praticamente tutto ciò che le viene in mente. È possibile ottenere risultati decenti con un hardware modesto e una GPU relativamente recente. Ecco come iniziare.

David Devey, 👁 David Devey (traduzione a cura di Ninh Duy), Pubblicato 02/01/2025 🇺🇸 🇫🇷 ...

Ci sono moltissimi motivi per cui potrebbe voler ospitare il suo generatore di immagini AI. Sia che voglia evitare le filigrane e la pubblicità, sia che voglia generare più immagini senza l'abbonamento, sia che voglia spingere la sua generazione di immagini oltre i limiti consentiti eticamente dal servizio dal servizio, ospitare la propria istanza e utilizzare i dati di addestramento di un'azienda come Stable Diffusion le permette di mantenere il controllo definitivo su ciò che la sua AI genera.

Per iniziare, deve scaricare l'edizione comunitaria di Invoke AI da qui. In Windows, quasi tutto il processo di installazione è ora automatizzato, con l'installazione di tutte le dipendenze necessarie. Tuttavia, questo potrebbe non essere il caso delle versioni Linux e macOS, quindi il suo chilometraggio può variare. Per i nostri esperimenti, abbiamo utilizzato una macchina virtuale che esegue Windows 11, con 8 core da un Ryzen 9 5950 allocato, una RTX 4070 (disponibile su Amazon) passata alla macchina virtuale e 24 GB di RAM in esecuzione su un SSD NVMe da 1 TB. Le GPU AMD sono supportate, ma solo sotto Linux.

Una volta completato il processo di installazione, lanciare Invoke AI per generare i file di configurazione e poi spegnerlo. Il motivo è che si consiglia di apportare un paio di modifiche a varie parti del sistema per attivare la "modalità Low-VRAM".

Sebbene Invoke AI non specifichi cosa si intende per VRAM bassa, la RAM da 12 GB della RTX 4070 probabilmente non è in grado di far funzionare un modello da 24 GB. Per farlo, deve modificare il file invokeai.yaml che si trova nella cartella di installazione con un editor di testo e aggiungere la riga:

enable_partial_loading: true

Una volta modificato, per gli utenti Windows che utilizzano GPU Nvidia, è necessario impostare CUDA - Sysmem Fallback Policy su "Preferisci nessun Sysmem Fallback" nelle impostazioni globali dei pannelli di controllo Nvidia. Può personalizzare la quantità di cache che desidera allocare alla VRAM, ma per la maggior parte delle persone, l'attivazione della "modalità Low-VRAM" dovrebbe essere sufficiente per iniziare.

Dovrà scaricare alcuni modelli pre-addestrati prima che Invoke AI funzioni. Questo può essere fatto nel Model Manager (Fonte immagine: David Devey) — Dovrà scaricare alcuni modelli pre-addestrati prima che Invoke AI funzioni. Questo può essere fatto nella Gestione modelli

Alcuni modelli possono essere scaricati immediatamente, come Dreamshaper e CyberRealistic, ma per utilizzare Stable Diffusion, dovrà creare un account HuggingFace e generare un token per consentire a Invoke AI di scaricare il modello. Tuttavia, esistono modi per aggiungere modelli tramite URL, percorso locale o scansione di una cartella. Per creare il token, clicchi sull'avatar del suo account in alto a destra e selezioni "Token di accesso". Può chiamare il token come preferisce, ma deve dare accesso ai seguenti elementi:

Avrà bisogno di un token di accesso per poter scaricare il modello Stable Diffusion (Fonte: David Devey) — Avrà bisogno di un token di accesso per poter scaricare il modello Stable Diffusion

Copi il token e lo incolli nella casella della sezione Hugging Face della scheda modelli. Potrebbe essere necessario consentire l'accesso con una conferma sul sito web. Non è necessario iscriversi agli aggiornamenti, e Invoke AI le chiederà quando dovrà concedere l'accesso.

Tenga presente che i vari modelli richiederanno una discreta quantità di spazio di archiviazione, a seconda di ciò che sceglie di scaricare. Diffusion 3.9 stabile ha un peso di circa 19 GB.

Se ha configurato tutto correttamente, dovrebbe essere pronto a partire. Può accedere all'interfaccia tramite un browser web sul computer host, accedendo a http://127.0.0.1:9090. Nulla le impedisce di renderla disponibile ad altre macchine della sua rete locale.

Nella scheda "canvas", può digitare un testo per generare un'immagine. Subito sotto può impostare la risoluzione dell'immagine che desidera generare; tenga presente che più alta è la risoluzione, più lungo è il processo, anche se può generare una risoluzione inferiore e utilizzare uno degli strumenti di upscale per produrre una risoluzione superiore. Al di sotto di questo, può selezionare il modello che desidera utilizzare. Dei 4 modelli testati, Juggernaut XL, Dreamshaper 8, CyberRealistic v4.8 e Stable Diffusion 3.5 (Large), Stable Diffusion ha prodotto immagini più fotorealistiche, anche se ha avuto problemi a interpretare i messaggi di testo, mentre gli altri hanno prodotto immagini simili alle scene tagliate dei giochi.

Prompt: Un elfo nel bosco con una spada che combatte contro un orco - Sebbene sia il meno accurato in termini di prompt, la Diffusione Stabile produce le immagini più realistiche (Fonte immagine: David Devey) — Prompt: Un elfo nel bosco con una spada che combatte contro un orco - Sebbene sia il meno accurato in termini di prompt, la Diffusione Stabile produce le immagini più realistiche

Ovviamente, il modello migliore è quello che offre i risultati migliori per il suo caso d'uso. Stable Diffusion è stato di gran lunga il più lento, impiegando circa 30-50 secondi per produrre un'immagine, ma i risultati sono stati certamente i più realistici e piacevoli di tutti e 4 i modelli testati.

Suggerimenti:

In alto a sinistra: Una donna intelligente che cammina lungo una strada e guarda indietro verso la telecamera, con il traffico sul lato sinistro
In alto a destra: Un cane carlino che lecca una banana
In basso a sinistra: Un astronauta giocattolo seduto in un mezzo guscio d'uovo sulla superficie della luna
In basso a destra: Una ragazza con capelli biondi e occhi azzurri a casa che mangia popcorn

C'è ancora molto da scoprire con Invoke AI. Lo strumento consente di rielaborare parti di un'immagine, produrre iterazioni, perfezionare immagini e creare flussi di lavoro. Non è necessario un hardware eccessivo per eseguirlo, la versione Windows funzionerà su qualsiasi GPU Nvidia della serie 10xx o successiva, anche se ci si può aspettare una certa lentezza nella generazione delle immagini. Anche se ci sono opinioni contrastanti sulla formazione dei modelli AI e sul consumo energetico richiesto, l'esecuzione dell'AI a livello locale sul proprio hardware è un ottimo modo per produrre immagini royalty-free per una serie di scopi.