Çinli start-up DeepSeek, kendi adını taşıyan açık kaynak modelinin DeepSeek-V3-0324 güncellemesini sessizce başlattı. Bu yeni sürüm, matematik ve programlama yetenekleri optimize edilerek, yakında çıkması beklenen DeepSeek R2'nin habercisi olabilir. MIT lisansı altında yayınlanan model, en izin verici lisanslardan biri olup, Hugging Face'de mevcuttur.
Mayıs 2023'te Hangzhou'da kurulan ve High-Flyer hedge fonunun bir yan kuruluşu olan start-up, bu lansmanı herhangi bir basın bülteni olmadan gerçekleştirdi.
DeepSeek-V3, 671 milyar parametreye sahipken, DeepSeek-V3-0324 685 milyar parametreye sahip ve 32.000 GPU'dan oluşan bir küme tarafından destekleniyor, bu da onu kendi kategorisinde en güçlü açık kaynak modellerden biri yapıyor. Öncekileri için geliştirilen Mixture-of-Experts mimarisine dayanıyor, adı gibi çeşitli uzmanlardan oluşuyor. Bunlar, isteklerin özel ihtiyaçlarına göre akıllı bir yönlendirme mekanizması sayesinde etkinleştiriliyor, bu da modelin çeşitli görevleri etkili bir şekilde yönetmesini sağlarken hesaplama yükünü azaltır.
Ayrıca, anahtar ve değer dikkatlerini birlikte sıkıştırmaya olanak tanıyan yenilikçi Multi-head Latent Attention (Çok Başlı Gizli Dikkat veya MLA) mimarisini de benimsemelidir, bu da Key-Value (KV) önbellek boyutunu azaltarak bellek kullanımını düşürürken işlem verimliliğini artırır.
DeepSeek, X üzerinde bu sürümü DeepSeek V3'ün küçük bir güncellemesi olarak sunarken, lansmandan sadece birkaç saat sonra gelen ilk yorumlar, özellikle matematik ve programlamada gerçek ilerlemeleri vurguluyor.
DeepSeek'in performansları spekülasyonları artırmaya devam ediyor. Startup'ın ilk akıl yürütme modeli olan ve V3 tabanlı DeepSeek R1 modeli, gelişmiş akıl yürütme yetenekleriyle uzmanları şaşırtmış, eğitim ve kullanım maliyetleri Amerikalı rakiplerinden bariz şekilde daha düşük olarak Wall Street'i altüst etmeyi başarmıştı.
Dün La Tribune tarafından yayımlanan bir makaleye göre, ABD "DeepSeek gizeminin" bir Nvidia çip kaçakçılığı olabileceği yönünde bir açıklama bulmak istiyor. Hiçbir teknik hipotez göz ardı edilmemeli, ancak bu son derece ilginç github deposunun da gösterdiği gibi, DeepSeek'i açık kaynak İA'nın yeni bir referans oyuncusu olarak görmemek hata olur.

Daha iyi anlamak

DeepSeek-V3-0324'te kullanılan Mixture-of-Experts mimarisi nedir?

Mixture-of-Experts (MoE) mimarisi, farklı uzmanlaşmış alt modellerin veya 'uzmanlar'ın, görev taleplerine göre etkinleştirildiği bir yapıdır. Bu, belirli görevler için performansı optimize ederek hesaplama kaynaklarının verimli bir şekilde tahsis edilmesine olanak tanır.

DeepSeek-V3-0324'te Çok Kafalı Gizli Dikkat (MLA) nasıl çalışır?

DeepSeek-V3-0324'teki Çok Kafalı Gizli Dikkat (MLA), dikkat anahtarlarını ve değerlerini birlikte sıkıştırarak işlemi geliştirir. Bu, önbellek boyutunu azaltarak bellek kullanımını optimize ederken yüksek işlem verimliliğini korur.