Justo un mes después de haber introducido su modelo de razonamiento TurboS, el conglomerado chino Tencent revela aquel para el que sirvió de base: Hunyuan-T1. Según ellos, gracias a un post-entrenamiento a gran escala, su capacidad de razonamiento se ha ampliado considerablemente y se ha alineado con las preferencias humanas, lo que le permite competir con DeepSeek R1.
Desde 2024, con V2, un modelo de lenguaje eficiente ofrecido a un costo competitivo, DeepSeek ha desencadenado una guerra de precios en el mercado chino de IA y ha llevado a Tencent y a sus principales competidores como Zhipu AI, ByteDance, Alibaba, Baidu, a revisar sus precios a la baja. Mientras que la guerra tecnológica en torno a la IA entre Estados Unidos y China continúa intensificándose desde la aparición de R1, la competencia en el Imperio del Medio también alcanza nuevos picos. 

Un modelo centrado en el razonamiento profundo

Después de Baidu y Alibaba, es el gigante Tencent quien intenta imponerse en el mercado chino frente a DeepSeek
T1 se basa en la arquitectura Hybrid-Transformer-Mamba MoE, que como su nombre indica, combina las ventajas de los Transformadores y los modelos Mamba, al tiempo que integra expertos, lo que permite limitar el número de parámetros activos. Está particularmente adaptado a las tareas que requieren un tratamiento de contexto largo y una gran precisión. T1 reduce así las pérdidas de contexto y optimiza el uso de los recursos informáticos, siendo además dos veces más rápido en el decodificado. 
Gracias a un post-entrenamiento basado en el RLHF (aprendizaje por refuerzo con retroalimentación humana), Tencent posiciona su modelo como un serio competidor frente a OpenAI o1 y DeepSeek R1.
Según las evaluaciones compartidas por Tencent, Hunyuan-T1 muestra un rendimiento:
  • Superior o equivalente en algunos benchmarks (MMLU-pro, CEval, AIME, Zebra Logic);
  • Particularmente fuerte en matemáticas, con un impresionante puntaje de 96,2 en MATH-500;
  • Sólido en ingeniería y codificación, demostrando una capacidad avanzada para resolver problemas técnicos.
Benchmarks proporcionados por Tencent

Para entender mejor

¿Qué es la arquitectura Hybrid-Transformer-Mamba MoE y por qué se utiliza en Hunyuan-T1?

La arquitectura Hybrid-Transformer-Mamba MoE combina las ventajas de los Transformers y los modelos Mamba, incorporando expertos para limitar el número de parámetros activos. Se utiliza para reducir la pérdida de contexto y optimizar los recursos computacionales, especialmente para el procesamiento de contexto largo y preciso. Esto mejora la eficiencia y la velocidad de decodificación, haciendo que Hunyuan-T1 sea competitivo en tareas complejas.