Scoperto un modo per eseguire il modello AI 671B di DeepSeek senza costose GPU

Fonte dell'immagine: Aristal, Pixabay

L'ingegnere di Hugging Face Matthew Carrigan ha recentemente rivelato su X un metodo per eseguire localmente il modello R1 avanzato di DeepSeek con quantizzazione a 8 bit, eliminando la necessità di costose GPU, per un costo dichiarato di 6.000 dollari. La chiave? Avere una grande quantità di memoria rispetto a grandi riserve di potenza di calcolo.

Daniel Miron (traduzione a cura di Ninh Duy), Pubblicato 02/05/2025 🇺🇸 🇫🇷 ...

AI Software

Lanciato il 20 gennaio 2025, DeepSeek-R1 è un modello Mixture-of-Experts (MoE) da 671B parametri con 37B parametri attivi per token. Progettato per il ragionamento avanzato, supporta 128K input di token e genera fino a 32K token. Grazie alla sua architettura MoE, offre prestazioni di alto livello pur utilizzando meno risorse rispetto ai modelli densi tradizionali.

I test indipendenti di https://docsbot.ai/models/compare/o1-preview/deepseek-r1#benchmarks suggeriscono che il modello linguistico R1 raggiunge prestazioni paragonabili a quelle di O1 di OpenAI, posizionandolo come un'alternativa competitiva nelle applicazioni di AI ad alto rischio. Scopriamo di cosa abbiamo bisogno per eseguirlo localmente.

L'hardware

Questa build si basa su due CPU AMD Epyc e 768 GB di RAM DDR5 - non sono necessarie GPU costose.

Case: Enthoo Pro 2 Server
Scheda madre: Gigabyte MZ73-LM0 o MZ73-LM1 (ha due socket per CPU e 24 slot per RAM)
CPU: 2x AMD Epyc 9004/9005 (9115 o 9015 funzionano come opzioni più economiche)
Raffreddamento: Arctic Freezer 4U-SP5
RAM: 24x 32GB DDR5 RDIMM (768 GB in totale)
Archiviazione: 1TB+ SSD NVMe (per caricare rapidamente 700 GB di pesi di modelli)
Alimentazione: Corsair HX1000i (1000W, sufficienti per una doppia CPU)

Software e configurazione

Una volta assemblato, Linux e llama.cpp devono essere per poter eseguire il modello. Una modifica cruciale del BIOS, l'impostazione dei gruppi NUMA a 0, raddoppia l'efficienza della RAM per migliorare le prestazioni. I 700 GB di pesi di DeepSeek-R1 possono essere scaricati https://huggingface.co/unsloth/DeepSeek-R1-GGUF/tree/mainda Hugging Face.

Prestazioni

Questa configurazione genera 6-8 token al secondo, non male per un modello AI di fascia alta completamente locale. Salta completamente la GPU, ma questo è intenzionale. L'esecuzione della quantizzazione Q8 (per l'alta qualità) sulle GPU richiederebbe oltre 700 GB di VRAM, con un costo superiore a 100.000 dollari. Nonostante la sua potenza grezza, l'intero sistema consuma meno di 400W, il che lo rende sorprendentemente efficiente.

Per coloro che desiderano il pieno controllo dell'IA di frontiera, senza cloud, senza restrizioni, questo è un gioco che cambia le carte in tavola. Dimostra che l'AI di alto livello può essere eseguita localmente, in modo completamente open-source, dando priorità alla privacy dei dati, riducendo al minimo le vulnerabilità alle violazioni ed eliminando la dipendenza da sistemi esterni.