Google annuncia i nuovi modelli di linguaggio di visione PaliGemma 2
Google ha annunciato il seguito del modello di linguaggio visivo PaliGemma, lanciato nel maggio 2024. PaliGemma 2 è disponibile in diverse dimensioni che vanno da 3 miliardi di parametri a 28 miliardi e varie risoluzioni fino a 896px.
L'azienda afferma che il modello mostra "prestazioni leader nel riconoscimento di formule chimiche, nel riconoscimento di spartiti musicali, nel ragionamento spaziale e nella generazione di rapporti radiografici del torace"
Dispone anche di lunghe funzionalità di didascalia con "didascalie dettagliate e contestualmente rilevanti per le immagini, che vanno oltre la semplice identificazione degli oggetti per descrivere azioni, emozioni e la narrazione generale della scena"
I nuovi modelli saranno offerti come "sostituzione drop-in" in più dimensioni senza "modifiche importanti del codice" I modelli pre-addestrati sono disponibili su Hugging Face e Kaggle e sono liberi di essere scaricati e provati da chiunque. Inoltre, supporta diversi framework, tra cui Hugging Face Transformers, Keras, PyTorch, JAX e Gemma.cpp.
Google afferma che la "flessibilità di PaliGemma 2 rende semplice la messa a punto per compiti e insiemi di dati specifici, consentendo di adattare le sue capacità alle proprie esigenze"
Fonte(i)
I nostri Top 10
» Top 10 Portatili Multimedia
» Top 10 Portatili Gaming
» Top 10 Portatili Gaming Leggeri
» Top 10 Portatili da Ufficio e Business economici
» Top 10 Portatili Premium da Ufficio/Business
» Top 10 Portatili sotto i 300 Euro
» Top 10 Portatili sotto i 500 Euro
» Top 10 dei Portatili Workstation
» Top 10 Subnotebooks
» Top 10 Ultrabooks
» Top 10 Convertibili
» Top 10 Tablets
» Top 10 Tablets Windows
» Top 10 Smartphones