Apenas um mês após ter introduzido seu modelo de raciocínio TurboS, o conglomerado chinês Tencent revela aquele que serviu como base: Hunyuan-T1. Segundo a empresa, graças a um pós-treinamento em larga escala, sua capacidade de raciocínio foi consideravelmente ampliada e alinhada com as preferências humanas, permitindo competir com o DeepSeek R1.
A partir de 2024, com o V2, um modelo de linguagem de alto desempenho oferecido a um custo competitivo, DeepSeek desencadeou uma guerra de preços no mercado chinês de IA e levou Tencent e seus principais concorrentes, incluindo Zhipu AI, ByteDance, Alibaba, Baidu, a revisarem seus preços para baixo. Enquanto a guerra tecnológica em torno da IA entre os Estados Unidos e a China continua a se intensificar desde o surgimento do R1, a concorrência no Império do Meio também atinge novos patamares.
Um modelo focado no raciocínio profundo
Após Baidu e Alibaba, é a vez do gigante Tencent tentar se impor no mercado chinês frente ao DeepSeek.
O T1 baseia-se na arquitetura Hybrid-Transformer-Mamba MoE, que, como o nome indica, combina as vantagens dos Transformers e dos modelos Mamba, integrando especialistas, o que permite limitar o número de parâmetros ativos. Ela é particularmente adequada para tarefas que exigem um tratamento de contexto longo e grande precisão. O T1 reduz assim as perdas de contexto e otimiza o uso dos recursos computacionais, sendo duas vezes mais rápido na decodificação.
Graças a um pós-treinamento baseado no RLHF (aprendizado por reforço com feedback humano), a Tencent posiciona seu modelo como um concorrente sério frente ao OpenAI o1 e DeepSeek R1.
De acordo com as avaliações compartilhadas pela Tencent, Hunyuan-T1 apresenta desempenhos:
- Superiores ou equivalentes em alguns benchmarks (MMLU-pro, CEval, AIME, Zebra Logic);
- Particularmente fortes em matemática, com uma pontuação impressionante de 96,2 no MATH-500;
- Sólidos em engenharia e codificação, demonstrando uma capacidade avançada de resolver problemas técnicos.


Benchmarks fornecidos pela Tencent
Para entender melhor
O que é a arquitetura Hybrid-Transformer-Mamba MoE e por que é utilizada no Hunyuan-T1?
A arquitetura Hybrid-Transformer-Mamba MoE combina os benefícios dos Transformers e dos modelos Mamba, incorporando especialistas para limitar o número de parâmetros ativos. É utilizada para reduzir a perda de contexto e otimizar os recursos computacionais, especialmente para tarefas que exigem processamento de contexto longo e precisão. Isso aumenta a eficiência e a velocidade de decodificação, tornando o Hunyuan-T1 competitivo em tarefas complexas.