Notebookcheck Logo

Google annuncia i nuovi modelli di linguaggio di visione PaliGemma 2

Google annuncia i nuovi modelli di linguaggio di visione PaliGemma 2 (Fonte: Google)
Google annuncia i nuovi modelli di linguaggio di visione PaliGemma 2 (Fonte: Google)
I modelli PaliGemma 2 di Google sono disponibili in diverse dimensioni e risoluzioni e possono comprendere testo, immagini e video. Google vanta anche la capacità di creare didascalie dettagliate e pertinenti al contesto.

Google ha annunciato il seguito del modello di linguaggio visivo PaliGemma, lanciato nel maggio 2024. PaliGemma 2 è disponibile in diverse dimensioni che vanno da 3 miliardi di parametri a 28 miliardi e varie risoluzioni fino a 896px.

L'azienda afferma che il modello mostra "prestazioni leader nel riconoscimento di formule chimiche, nel riconoscimento di spartiti musicali, nel ragionamento spaziale e nella generazione di rapporti radiografici del torace"

Dispone anche di lunghe funzionalità di didascalia con "didascalie dettagliate e contestualmente rilevanti per le immagini, che vanno oltre la semplice identificazione degli oggetti per descrivere azioni, emozioni e la narrazione generale della scena"

I nuovi modelli saranno offerti come "sostituzione drop-in" in più dimensioni senza "modifiche importanti del codice" I modelli pre-addestrati sono disponibili su Hugging Face e Kaggle e sono liberi di essere scaricati e provati da chiunque. Inoltre, supporta diversi framework, tra cui Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp.

Google afferma che la "flessibilità di PaliGemma 2 rende semplice la messa a punto per compiti e insiemi di dati specifici, consentendo di adattare le sue capacità alle proprie esigenze"

Fonte(i)

Please share our article, every link counts!
Mail Logo
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 12 > Google annuncia i nuovi modelli di linguaggio di visione PaliGemma 2
Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)