La startup china DeepSeek ha lanzado discretamente DeepSeek-V3-0324, una actualización de su modelo open source epónimoDeepSeek-V3. Esta nueva versión, cuyas capacidades en matemáticas y programación han sido optimizadas, podría prefigurar DeepSeek R2, cuyo lanzamiento se espera próximamente. El modelo, publicado bajo la licencia MIT, una de las más permisivas, está disponible en Hugging Face.
Este lanzamiento no ha sido acompañado de ningún comunicado por parte de la startup creada en mayo de 2023 en Hangzhou, dirigida por Liang Wenfeng y filial del fondo especulativo High-Flyer.
Mientras que DeepSeek-V3 cuenta con 671 mil millones de parámetros, DeepSeek-V3-0324 exhibe 685 mil millones y es alimentado por un clúster de 32,000 GPUs, lo que lo convierte en uno de los modelos open source más poderosos de su categoría. Se basa en una arquitectura Mixture-of-Experts desarrollada para sus predecesores, DeepSeekMoE, compuesta, como su nombre indica, por diversos expertos especializados. Estos se activan según las necesidades específicas de las solicitudes gracias a un mecanismo de enrutamiento inteligente, lo que permite al modelo gestionar eficazmente una variedad de tareas mientras reduce la carga computacional.
También debería adoptar su arquitectura innovadora Multi-head Latent Attention (Atención Latente Multi-cabezas o MLA), un enfoque que permite comprimir de manera conjunta las claves y los valores de atención, disminuyendo así el tamaño del caché Key-Value (KV) durante la inferencia, reduciendo el uso de memoria mientras mejora la eficiencia del procesamiento.
Si bien DeepSeek presenta esta versión como una actualización menor de DeepSeek V3 en X, los primeros comentarios, apenas unas horas después del lanzamiento, destacan avances reales, especialmente en matemáticas y programación.
El rendimiento de DeepSeek continúa alimentando las especulaciones. El modelo DeepSeek R1, el primer modelo de razonamiento de la startup, basado en V3, y cuyas capacidades de razonamiento avanzadas habían sorprendido a los expertos con costos de entrenamiento y uso significativamente inferiores a los de sus competidores estadounidenses, había logrado perturbar Wall Street.
El rendimiento de DeepSeek continúa alimentando las especulaciones. El modelo DeepSeek R1, el primer modelo de razonamiento de la startup, basado en V3, y cuyas capacidades de razonamiento avanzadas habían sorprendido a los expertos con costos de entrenamiento y uso significativamente inferiores a los de sus competidores estadounidenses, había logrado perturbar Wall Street.
Según un artículo publicado por La Tribune ayer, Estados Unidos quiere encontrar una explicación al "misterio DeepSeek" en un posible contrabando de chips Nvidia. Ninguna hipótesis técnica debe descartarse, pero sería un error no ver en DeepSeek un nuevo actor de referencia en IA Open Source, como lo demuestra este repositorio de GitHub extremadamente interesante.
Para entender mejor
¿Qué es la arquitectura Mixture-of-Experts utilizada en DeepSeek-V3-0324?
La arquitectura Mixture-of-Experts (MoE) implica el uso de diferentes submodelos especializados, o 'expertos', activados según las demandas de la tarea. Esto permite una asignación eficiente de recursos computacionales, optimizando el rendimiento para tareas específicas sin sobrecargar el sistema.
¿Cómo funciona la Atención Latente Multi-cabezas (MLA) en DeepSeek-V3-0324?
La Atención Latente Multi-cabezas (MLA) en DeepSeek-V3-0324 mejora el procesamiento comprimiendo conjuntamente las claves y valores de atención. Esto reduce el tamaño de la caché Key-Value durante la inferencia, optimizando el uso de la memoria al tiempo que mantiene una alta eficiencia de procesamiento.