Das chinesische Start-up DeepSeek hat diskret DeepSeek-V3-0324 veröffentlicht, ein Update seines gleichnamigen Open-Source-Modells DeepSeek-V3. Diese neue Version, deren Fähigkeiten in Mathematik und Programmierung optimiert wurden, könnte eine Vorstufe von DeepSeek R2 sein, dessen Veröffentlichung bald erwartet wird. Das Modell, veröffentlicht unter der MIT-Lizenz, einer der freizügigsten Lizenzen, ist auf Hugging Face verfügbar.
Dieser Launch wurde von keinem Pressemitteilung der im Mai 2023 in Hangzhou gegründeten und von Liang Wenfeng geleiteten Start-up begleitet, das eine Tochter des Hedgefonds High-Flyer ist.
Während DeepSeek-V3 über 671 Milliarden Parameter verfügt, hat DeepSeek-V3-0324 685 Milliarden und wird von einem Cluster aus 32.000 GPUs betrieben, was es zu einem der leistungsstärksten Open-Source-Modelle seiner Kategorie macht. Es basiert auf einer Mixture-of-Experts-Architektur, die für seine Vorgänger entwickelt wurde, DeepSeekMoE, bestehend, wie der Name schon sagt, aus verschiedenen spezialisierten Experten. Diese werden entsprechend den spezifischen Anforderungen der Anfragen durch einen intelligenten Routing-Mechanismus aktiviert, was dem Modell ermöglicht, effizient eine Vielzahl von Aufgaben zu bewältigen und gleichzeitig die Rechenlast zu verringern.
Es sollte auch ihre innovative Multi-head Latent Attention-Architektur (Mehrköpfige latente Aufmerksamkeit oder MLA) übernehmen, ein Ansatz, der es ermöglicht, die Schlüssel und Werte der Aufmerksamkeit gemeinsam zu komprimieren, wodurch die Größe des Key-Value-Caches (KV) während der Inferenz verringert wird, die Speichernutzung reduziert und die Verarbeitungseffizienz verbessert wird.
Wenn DeepSeek diese Version als ein kleines Update von DeepSeek V3 auf X präsentiert, heben die ersten Kommentare, nur wenige Stunden nach dem Launch, echte Fortschritte hervor, insbesondere in Mathematik und Programmierung.
Die Leistungen von DeepSeek befeuern weiterhin Spekulationen. Das Modell DeepSeek R1, das erste Reasoning-Modell des Start-ups, basierend auf V3, und dessen fortgeschrittene Reasoning-Fähigkeiten die Experten mit deutlich geringeren Trainings- und Nutzungskosten als seine amerikanischen Konkurrenten überrascht hatten, hatte es geschafft, Wall Street zu erschüttern.
Laut einem gestern von La Tribune veröffentlichten Artikel wollen die USA eine Erklärung für das "DeepSeek-Geheimnis" in einem möglichen Schmuggel von Nvidia-Chips finden. Keine technische Hypothese darf ausgeschlossen werden, aber es wäre ein Fehler, DeepSeek nicht als neuen Referenzakteur in der Open-Source-KI zu erkennen, wie dieses extrem interessante GitHub-Repository zeigt.

Besser verstehen

Was ist die Mixture-of-Experts-Architektur, die in DeepSeek-V3-0324 verwendet wird?

Die Mixture-of-Experts (MoE)-Architektur umfasst die Verwendung von verschiedenen spezialisierten Untermode, oder 'Experten', die basierend auf den Anforderungen der Aufgabe aktiviert werden. Dies ermöglicht eine effiziente Zuweisung der Rechenressourcen und optimiert die Leistung für spezifische Aufgaben ohne Überlastung des Systems.

Wie funktioniert die Multi-head Latent Attention (MLA) in DeepSeek-V3-0324?

Die Multi-head Latent Attention (MLA) in DeepSeek-V3-0324 verbessert die Verarbeitung durch gemeinsame Komprimierung von Aufmerksamkeits-Schlüsseln und -Werten. Dies reduziert die Größe des Key-Value-Caches während der Inferenz und optimiert so die Speichernutzung bei gleichzeitig hoher Verarbeitungseffizienz.