Fugatto 1 di Nvidia può sintetizzare l'audio per creare nuovi suoni
Nvidia ha presentato un nuovo modello di AI generativa in grado di sintetizzare l'audio attraverso semplici istruzioni testuali e input audio contestuali, per creare suoni unici. Nvidia immagina Fugatto 1 "come uno strumento per i creativi, che li mette in grado di dare rapidamente vita alle loro fantasie sonore e ai loro suoni inediti - uno strumento per l'immaginazione, non un sostituto della creatività"
Nel documento di ricerca https://fugatto.github.io/FUGATTO_ICLR_2025.pdfil team afferma che i Large Language Models (LLM) addestrati sul testo possono imparare a dedurre le istruzioni dagli input, ma gli LLM addestrati puramente sull'audio non possono farlo. L'audio non dispone di dati che mostrano come è stato creato.
Fugatto 1 di Nvidia utilizza un set di dati specializzato che attinge da un'ampia gamma di suoni e un metodo di comprensione e controllo delle istruzioni chiamato ComposeableART. Ciò consente al modello di creare un set di dati emergenti che può aiutare il modello a combinare diversi suoni, anche quelli che non è stato addestrato a gestire.
Nvidia ha mostrato alcuni esempi del modello in azione sulla pagina Github di Fugattocome la capacità di sintetizzare il suono di un cane che abbaia a tempo con la musica dance elettronica, una macchina da scrivere che sussurra ogni lettera digitata e persino un sassofono che miagola o abbaia.
Per ora, Nvidia non ha intenzione di rilasciare il modello pubblicamente.
Fonte(i)
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones