Çinli holding Tencent, akıl yürütme modeli TurboS'u tanıtmasından sadece bir ay sonra, onun temelini oluşturan Hunyuan-T1'i açıkladı. Tencent'e göre, geniş çaplı bir son eğitim sayesinde, modelin akıl yürütme kapasitesi önemli ölçüde genişletildi ve insan tercihleriyle uyumlu hale getirildi, bu da onu DeepSeek R1 ile rekabet edebilir hale getiriyor.
2024 itibarıyla, rekabetçi maliyetle sunulan yüksek performanslı bir dil modeli olan V2 ile DeepSeek, Çin yapay zeka pazarında bir fiyat savaşı başlattı ve Tencent ile Zhipu AI, ByteDance, Alibaba, Baidu gibi ana rakiplerini de fiyatlarını düşürmeye zorladı. ABD ve Çin arasında yapay zeka konusundaki teknolojik savaş R1'in ortaya çıkışından bu yana yoğunlaşırken, Orta Krallık'taki rekabet de yeni zirvelere ulaşıyor. 

Derin Akıl Yürütmeye Odaklı Bir Model

Baidu ve Alibaba'dan sonra, Çin pazarında DeepSeek'e karşı kendini göstermek isteyen dev Tencent oldu. 
T1, adından da anlaşılacağı üzere Transformer'ların ve Mamba modellerinin avantajlarını birleştiren ve uzmanları entegre eden Hybrid-Transformer-Mamba MoE mimarisine dayanıyor, bu da aktif parametre sayısını sınırlamaya olanak sağlıyor. Özellikle uzun bağlam gerektiren ve yüksek hassasiyet isteyen görevler için uyarlanmış. T1, bağlam kayıplarını azaltır ve bilgisayar kaynaklarının kullanımını optimize ederken, kod çözmede iki kat daha hızlıdır. 
RLHF'ye (insan geri bildirimi ile pekiştirmeli öğrenme) dayalı bir son eğitim sayesinde, Tencent modelini OpenAI o1 ve DeepSeek R1 karşısında ciddi bir rakip olarak konumlandırıyor.
Tencent tarafından paylaşılan değerlendirmelere göre, Hunyuan-T1 performans sergiliyor:
  • Bazı benchmarklarda (MMLU-pro, CEval, AIME, Zebra Logic) üstün veya eşdeğer;
  • Matematikte özellikle güçlü, MATH-500'de etkileyici bir 96,2 puanla;
  • Mühendislik ve kodlamada sağlam, teknik sorunları çözmede ileri bir yetenek gösteriyor.
Tencent tarafından sağlanan benchmarklar

Daha iyi anlamak

Hybrid-Transformer-Mamba MoE mimarisi nedir ve Hunyuan-T1'de neden kullanılmaktadır?

Hybrid-Transformer-Mamba MoE mimarisi, Transformer ve Mamba modellerinin avantajlarını birleştirir, aktif parametre sayısını sınırlamak için uzmanlar entegre edilir. Özellikle uzun bağlam işleme ve hassasiyet gerektiren görevler için bağlam kaybını azaltmak ve bilgi işlem kaynaklarını optimize etmek amacıyla kullanılır. Bu, verimliliği ve kod çözme hızını artırır, Hunyuan-T1'i karmaşık görevlerde rekabetçi kılar.