Nur einen Monat nach der Einführung seines TurboS-Reasoning-Modells enthüllt das chinesische Konglomerat Tencent das Modell, das als Grundlage diente: Hunyuan-T1. Laut Tencent wurde seine Fähigkeit zum logischen Denken durch ein groß angelegtes Post-Training erheblich erweitert und auf menschliche Präferenzen abgestimmt, was ihm ermöglicht, mit DeepSeek R1 zu konkurrieren.
Ab 2024, mit V2, einem leistungsstarken Sprachmodell zu wettbewerbsfähigen Kosten, hat DeepSeek einen Preiskrieg auf dem chinesischen KI-Markt ausgelöst und Tencent sowie seine Hauptkonkurrenten wie Zhipu AI, ByteDance, Alibaba, Baidu dazu veranlasst, ihre Preise zu senken. Während sich der technologische Krieg um KI zwischen den USA und China seit dem Aufkommen von R1 weiter verschärft, erreicht die Konkurrenz im Reich der Mitte ebenfalls neue Höhen.
Ein Modell, das auf tiefes Denken ausgerichtet ist
Nach Baidu und Alibaba versucht nun der Gigant Tencent, sich auf dem chinesischen Markt gegenüber DeepSeek durchzusetzen.
T1 basiert auf der Hybrid-Transformer-Mamba MoE-Architektur, die, wie der Name schon sagt, die Vorteile von Transformers und Mamba-Modellen kombiniert und Experten integriert, was die Anzahl der aktiven Parameter begrenzt. Sie ist besonders geeignet für Aufgaben, die eine lange Kontextverarbeitung und hohe Genauigkeit erfordern. T1 reduziert so Kontextverluste und optimiert die Nutzung von Computerressourcen, während es beim Decodieren doppelt so schnell ist.
Dank eines Post-Trainings basierend auf RLHF (Reinforcement Learning with Human Feedback) positioniert Tencent sein Modell als ernsthaften Konkurrenten gegenüber OpenAI o1 und DeepSeek R1.
Laut den von Tencent geteilten Bewertungen zeigt Hunyuan-T1 folgende Leistungen:
- Überlegen oder gleichwertig in einigen Benchmarks (MMLU-pro, CEval, AIME, Zebra Logic);
- Besonders stark in Mathematik mit einem beeindruckenden Score von 96,2 auf MATH-500;
- Solide in Ingenieurwesen und Codierung, zeigt eine fortgeschrittene Fähigkeit, technische Probleme zu lösen.


Von Tencent bereitgestellte Benchmarks
Besser verstehen
Was ist die Hybrid-Transformer-Mamba MoE-Architektur und warum wird sie in Hunyuan-T1 verwendet?
Die Hybrid-Transformer-Mamba MoE-Architektur kombiniert die Vorteile von Transformern und Mamba-Modellen, indem Experten integriert werden, um die Anzahl aktiver Parameter zu begrenzen. Sie wird verwendet, um den Kontextverlust zu reduzieren und die Rechenressourcen zu optimieren, insbesondere bei Aufgaben, die eine lange Kontextverarbeitung und Präzision erfordern. Dies steigert die Effizienz und die Decodiergeschwindigkeit und macht Hunyuan-T1 wettbewerbsfähig bei komplexen Aufgaben.