Lo strumento AI DiffUHaul di Nvidia può spostare gli oggetti nelle immagini
I ricercatori di Nvidia hanno pubblicato un documento su un nuovo strumento AI, DiffUHaul, in grado di comprendere e spostare gli oggetti all'interno di un'immagine senza modificare le dimensioni o lo sfondo. Il documento afferma che lo strumento "sfrutta la comprensione spaziale di un modello di testo-immagine localizzato, per il compito di trascinamento degli oggetti"
Gli attuali modelli text-to-image hanno difficoltà a svolgere compiti complessi di editing di immagini, perché mancano di "ragionamento spaziale" DiffuHaul risolve questo problema inserendolo nel modello, consentendogli di seguire gli oggetti attraverso un'immagine, ricollocandoli "senza soluzione di continuità" senza alterare nient'altro.
Per ottenere questo risultato, lo strumento maschera l'oggetto durante le fasi di denoising, aiutandolo a capire la sua posizione e a separarlo dallo sfondo. Poi, interpola la differenza tra l'immagine originale e quella generata per collocare l'oggetto in una nuova posizione senza toccare lo sfondo. Dopodiché, i dettagli e le caratteristiche più fini dell'immagine originale vengono spostati nella nuova immagine per coerenza.
DiffUHaul si basa su BlobGENun modello che utilizza la comprensione spaziale per comporre immagini a partire da richieste complesse. Il documento afferma che lo strumento è privo di addestramento, il che significa che è stato creato senza alcun set di dati e funziona immediatamente.
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones