Fugatto 1 di Nvidia può sintetizzare l'audio per creare nuovi suoni

Fugatto 1 di Nvidia può sintetizzare l'audio per creare nuovi suoni (Fonte immagine: Fugatto Github)

Nvidia ha presentato un nuovo modello di AI generativa in grado di sintetizzare l'audio per creare suoni unici. L'azienda afferma che il modello sarà commercializzato nell'industria dell'intrattenimento per musica, film e videogiochi.

Rohith Bhaskar (traduzione a cura di Ninh Duy), Pubblicato 11/26/2024 🇺🇸 🇵🇹 ...

Nvidia ha presentato un nuovo modello di AI generativa in grado di sintetizzare l'audio attraverso semplici istruzioni testuali e input audio contestuali, per creare suoni unici. Nvidia immagina Fugatto 1 "come uno strumento per i creativi, che li mette in grado di dare rapidamente vita alle loro fantasie sonore e ai loro suoni inediti - uno strumento per l'immaginazione, non un sostituto della creatività"

Nel documento di ricerca https://fugatto.github.io/FUGATTO_ICLR_2025.pdfil team afferma che i Large Language Models (LLM) addestrati sul testo possono imparare a dedurre le istruzioni dagli input, ma gli LLM addestrati puramente sull'audio non possono farlo. L'audio non dispone di dati che mostrano come è stato creato.

Fugatto 1 di Nvidia utilizza un set di dati specializzato che attinge da un'ampia gamma di suoni e un metodo di comprensione e controllo delle istruzioni chiamato ComposeableART. Ciò consente al modello di creare un set di dati emergenti che può aiutare il modello a combinare diversi suoni, anche quelli che non è stato addestrato a gestire.

Nvidia ha mostrato alcuni esempi del modello in azione sulla pagina Github di Fugattocome la capacità di sintetizzare il suono di un cane che abbaia a tempo con la musica dance elettronica, una macchina da scrivere che sussurra ogni lettera digitata e persino un sassofono che miagola o abbaia.

Per ora, Nvidia non ha intenzione di rilasciare il modello pubblicamente.