Notebookcheck Logo

Hugging Face annuncia il nuovo modello di linguaggio di visione open-source SmolVLM

Hugging Face annuncia il nuovo modello di linguaggio di visione open-source SmolVLM (Fonte: Hugging Face)
Hugging Face annuncia il nuovo modello di linguaggio di visione open-source SmolVLM (Fonte: Hugging Face)
Hugging Face ha presentato un modello di linguaggio di visione leggero e open-source, SmolVLM, che secondo l'azienda è costruito per l'efficienza e la velocità.

Hugging Face, un repository per l'apprendimento automatico, i set di dati e gli strumenti di intelligenza artificiale, ha rilasciato a https://huggingface.co/blog/smolvlm un modello di linguaggio di visione open-source, leggero e costruito per l'efficienza e la velocità. Vision Language Models (VLM) è in grado di comprendere sia il testo che l'input visivo.

Il modello è disponibile per uso commerciale con pipeline di addestramento aperte, il che significa che i dataset, il codice e i metodi utilizzati per addestrare il modello sono disponibili al pubblico. Hugging Face ha tre varianti del modello: SmolVM-Base, SmolVM-Synthetic e SmolVM Instruct.

SmolVM-Base è progettato per la messa a punto a valle, ossia può essere adottato e addestrato per compiti specifici. Synthetic è addestrato su dati artificiali e non utilizza insiemi di dati del mondo reale, mentre Instruct può essere "utilizzato in modo immediato per applicazioni interattive per l'utente finale"

Hugging Face afferma che SmolVM richiede solo 5,7 GB di RAM della GPU, il che lo rende più piccolo e più efficiente di concorrenti come PaliGemma 3B, InternVL2 2B e Qwen2-VL-2B. Questo le consente di funzionare su computer portatili con VRAM limitata.

È anche più efficiente in termini di token rispetto ad altri modelli. I token misurano la velocità e l'efficienza di un modello e SmolVM può codificare un'immagine 384x384 in 81 token, rispetto a Qwen2-VL, che utilizza 16k token. Il modello richiede anche meno potenza di calcolo e RAM per funzionare.

Hugging Face è che ospita una demo costruita su SmolVM-Instruct con uno script di addestramento supervisionato che tutti possono provare.

Please share our article, every link counts!
Mail Logo
> Recensioni e prove di notebook, tablets e smartphones > News > Newsarchive 2024 12 > Hugging Face annuncia il nuovo modello di linguaggio di visione open-source SmolVLM
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)