Notebookcheck Logo

Whisper-Medusa è il nuovo modello di AI open-source di riconoscimento vocale di aiOla, che sostiene di essere il 50% più veloce di Whisper di OpenAI

aiOla è un'azienda con sede in Israele che utilizza soluzioni basate sull'AI per digitalizzare i flussi di lavoro cartacei. (Fonte: aiOla)
aiOla è un'azienda con sede in Israele che utilizza soluzioni basate sull'AI per digitalizzare i flussi di lavoro cartacei. (Fonte: aiOla)
aiOla ha lanciato Whisper-Medusa, un modello di AI open-source progettato per migliorare il riconoscimento vocale automatico. Combinando Whisper di OpenAI con la tecnologia di aiOla, Whisper-Medusa sostiene di operare il 50% più velocemente di Whisper stesso. Questo modello supporta oltre 100 lingue e trasforma i dati vocali non strutturati in informazioni utili, mostrando promesse future in settori come l'aviazione, la logistica e la sanità.

aiOla è un'azienda con sede in Israele, fondata nel 2019, specializzata in soluzioni basate sull'AI per la digitalizzazione dei flussi di lavoro cartacei. L'azienda ha recentemente presentato Whisper-Medusa, un modello di AI open-source che è una combinazione di Whisper di OpenAI e la tecnologia di aiOla. Sostiene di operare oltre il 50% più velocemente, pur mantenendo un'elevata precisione. Questa velocità è ottenuta grazie a un metodo unico di previsione dei token, che prevede dieci token alla volta invece di uno, come si vede in OpenAIdi Whisper.

Whisper-Medusa è stato sviluppato utilizzando una supervisione debole. Questo processo prevede l'utilizzo di Whisper per trascrivere i set di dati audio, che poi servono come etichette per addestrare i moduli di predizione dei token di Medusa.

Whisper-Medusa potrebbe rivelarsi una grande risorsa per le aziende che si affidano ancora a flussi di lavoro cartacei nelle operazioni quotidiane. La tecnologia di aiOla, attraverso il suo sistema di back-end 'aiOla Jargonic', può assistere i lavoratori frontline in vari settori. Per esempio, nell'industria alimentare, aiOla ha ottimizzato il controllo qualità trasformando le liste di controllo manuali in flussi di lavoro digitali. L'azienda afferma che l'intero processo è "facile come caricare una foto o un file dei processi esistenti".

Supportando oltre 100 lingue e vari accenti, Whisper-Medusa potrebbe essere utile anche in settori come l'aviazione, la produzione alimentare, la logistica e la sanità. Convertendo i dati vocali non strutturati in informazioni utili, le aziende possono ridurre i costi e migliorare l'allocazione delle risorse.

Gli interessati possono trovare i file open-source su Hugging Face e GitHub.

whisper-Medusa di aiOla sostiene di essere il 50% più veloce di Whisper di OpenAI. (Fonte: aiOla)
whisper-Medusa di aiOla sostiene di essere il 50% più veloce di Whisper di OpenAI. (Fonte: aiOla)

Fonte(i)

Please share our article, every link counts!
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 08 > Whisper-Medusa è il nuovo modello di AI open-source di riconoscimento vocale di aiOla, che sostiene di essere il 50% più veloce di Whisper di OpenAI
Anubhav Sharma, 2024-08- 4 (Update: 2024-08- 4)