Das chinesische Start-up DeepSeek hat diskret DeepSeek-V3-0324 veröffentlicht, ein Update seines gleichnamigen Open-Source-Modells DeepSeek-V3. Diese neue Version, deren Fähigkeiten in Mathematik und Programmierung optimiert wurden, könnte eine Vorstufe von DeepSeek R2 sein, dessen Veröffentlichung bald erwartet wird. Das Modell, veröffentlicht unter der MIT-Lizenz, einer der freizügigsten Lizenzen, ist auf Hugging Face verfügbar. Dieser Launch wurde von keinem Pressemitteilung der im Mai 2023 in Hangzhou gegründeten und von Liang Wenfeng geleiteten Start-up begleitet, das eine Tochter des Hedgefonds High-Flyer ist.
Während DeepSeek-V3 über 671 Milliarden Parameter verfügt, hat DeepSeek-V3-0324 685 Milliarden und wird von einem Cluster aus 32.000 GPUs betrieben, was es zu einem der leistungsstärksten Open-Source-Modelle seiner Kategorie macht. Es basiert auf einer Mixture-of-Experts-Architektur, die für seine Vorgänger entwickelt wurde, DeepSeekMoE, bestehend, wie der Name schon sagt, aus verschiedenen spezialisierten Experten. Diese werden entsprechend den spezifischen Anforderungen der Anfragen durch einen intelligenten Routing-Mechanismus aktiviert, was dem Modell ermöglicht, effizient eine Vielzahl von Aufgaben zu bewältigen und gleichzeitig die Rechenlast zu verringern.
Es sollte auch ihre innovative Multi-head Latent Attention-Architektur (Mehrköpfige latente Aufmerksamkeit oder MLA) übernehmen, ein Ansatz, der es ermöglicht, die Schlüssel und Werte der Aufmerksamkeit gemeinsam zu komprimieren, wodurch die Größe des Key-Value-Caches (KV) während der Inferenz verringert wird, die Speichernutzung reduziert und die Verarbeitungseffizienz verbessert wird.
Wenn
DeepSeek diese Version als ein kleines Update von DeepSeek V3 auf X präsentiert, heben die ersten Kommentare, nur wenige Stunden nach dem Launch, echte Fortschritte hervor, insbesondere in Mathematik und Programmierung.
Die Leistungen von
DeepSeek befeuern weiterhin Spekulationen. Das Modell
DeepSeek R1, das erste Reasoning-Modell des Start-ups, basierend auf V3, und dessen fortgeschrittene Reasoning-Fähigkeiten die Experten mit deutlich geringeren Trainings- und Nutzungskosten als seine amerikanischen Konkurrenten überrascht hatten, hatte es geschafft, Wall Street zu erschüttern.
Laut einem gestern von
La Tribune veröffentlichten Artikel wollen die USA eine Erklärung für das "DeepSeek-Geheimnis" in einem möglichen Schmuggel von Nvidia-Chips finden. Keine technische Hypothese darf ausgeschlossen werden, aber es wäre ein Fehler,
DeepSeek nicht als neuen Referenzakteur in der Open-Source-KI zu erkennen, wie dieses
extrem interessante GitHub-Repository zeigt.