La start-up cinese DeepSeek ha lanciato discretamente DeepSeek-V3-0324, un aggiornamento del suo modello open source eponimo DeepSeek-V3. Questa nuova versione, le cui capacità in matematica e programmazione sono state ottimizzate, potrebbe prefigurare DeepSeek R2, la cui uscita è attesa a breve. Il modello, pubblicato sotto licenza MIT, una delle più permissive, è disponibile su Hugging Face.
Questo lancio non è stato accompagnato da alcun comunicato della start-up creata a maggio 2023 a Hangzhou, diretta da Liang Wenfeng e filiale del fondo speculativo High-Flyer.
Mentre DeepSeek-V3, conta 671 miliardi di parametri, DeepSeek-V3-0324 ne presenta 685 miliardi ed è alimentato da un cluster di 32.000 GPU, rendendolo uno dei modelli open source più potenti della sua categoria. Si basa su un'architettura Mixture-of-Experts sviluppata per i suoi predecessori, DeepSeekMoE, composta come suggerisce il nome, da vari esperti specializzati. Questi ultimi sono attivati a seconda delle esigenze specifiche delle richieste grazie a un meccanismo di instradamento intelligente, permettendo al modello di gestire efficacemente una varietà di compiti riducendo il carico computazionale.
Dovrebbe adottare anche la loro architettura innovativa Multi-head Latent Attention (Attenzione Latente Multi-teste o MLA), un approccio che permette di comprimere congiuntamente le chiavi e i valori di attenzione, riducendo così la dimensione della cache Key-Value (KV) durante l'inferenza, diminuendo l'uso della memoria migliorando al contempo l'efficienza del trattamento.
Se DeepSeek presenta questa versione come un aggiornamento minore di DeepSeek V3 su X, i primi commenti, poche ore dopo il lancio, sottolineano reali avanzamenti, soprattutto in matematica e programmazione.
Le performance di DeepSeek continuano a alimentare le speculazioni. Il modello DeepSeek R1, il primo modello di ragionamento della startup, basato su V3, e le cui capacità di ragionamento avanzato avevano sorpreso gli esperti con costi di training e utilizzo nettamente inferiori a quelli dei suoi concorrenti americani, aveva riuscito a sconvolgere Wall Street.
Secondo un articolo pubblicato da La Tribune ieri, gli Stati Uniti vogliono trovare una spiegazione al "mistero DeepSeek" in un possibile contrabbando di chip Nvidia. Nessuna ipotesi tecnica è da escludere, ma sarebbe un errore non vedere in DeepSeek un nuovo attore di riferimento in IA Open Source, come testimonia questo repository GitHub estremamente interessante.

Per capire meglio

Cos'è l'architettura Mixture-of-Experts utilizzata in DeepSeek-V3-0324?

L'architettura Mixture-of-Experts (MoE) prevede l'uso di diversi sottomodelli specializzati, o 'esperti', attivati in base alle esigenze del compito. Ciò consente un'allocazione efficiente delle risorse computazionali, ottimizzando le prestazioni per compiti specifici senza sovraccaricare il sistema.

Come funziona l'Attention Latente Multi-testa (MLA) in DeepSeek-V3-0324?

L'Attention Latente Multi-testa (MLA) in DeepSeek-V3-0324 migliora il trattamento comprimendo congiuntamente chiavi e valori di attenzione. Ciò riduce la dimensione della cache Key-Value durante l'inferenza, ottimizzando l'uso della memoria pur mantenendo un'elevata efficienza di trattamento.