A start-up chinesa DeepSeek lançou discretamente DeepSeek-V3-0324, uma atualização de seu modelo open source homônimo DeepSeek-V3. Esta nova versão, cujas capacidades em matemática e programação foram otimizadas, pode antecipar o DeepSeek R2, cujo lançamento é esperado em breve. O modelo, publicado sob licença MIT, uma das mais permissivas, está disponível no Hugging Face.
Este lançamento não foi acompanhado de nenhum comunicado da start-up criada em maio de 2023 em Hangzhou, dirigida por Liang Wenfeng e filial do fundo especulativo High-Flyer.
Enquanto o DeepSeek-V3 possui 671 bilhões de parâmetros, o DeepSeek-V3-0324 apresenta 685 bilhões e é alimentado por um cluster de 32.000 GPUs, o que o torna um dos modelos open source mais poderosos de sua categoria. Ele se baseia em uma arquitetura Mixture-of-Experts desenvolvida para seus predecessores, DeepSeekMoE, composta, como o nome indica, de diversos especialistas especializados. Estes últimos são ativados conforme as necessidades específicas das consultas, graças a um mecanismo de roteamento inteligente, permitindo que o modelo gerencie eficientemente uma variedade de tarefas enquanto reduz a carga computacional.
Ele também deve adotar sua arquitetura inovadora Multi-head Latent Attention (Atenção Latente Multi-cabeças ou MLA), uma abordagem que permite comprimir conjuntamente as chaves e os valores de atenção, diminuindo assim o tamanho do cache Key-Value (KV) durante a inferência, reduzindo o uso de memória enquanto melhora a eficiência do processamento.
Se a DeepSeek apresenta esta versão como uma atualização menor do DeepSeek V3 no X, os primeiros comentários, algumas horas após o lançamento, destacam avanços reais, especialmente em matemática e programação.
As performances da DeepSeek continuam a alimentar especulações. O modelo DeepSeek R1, o primeiro modelo de raciocínio da startup, baseado no V3, e cujas capacidades de raciocínio avançadas surpreenderam os especialistas com custos de treinamento e uso significativamente inferiores aos de seus concorrentes americanos, conseguiu perturbar Wall Street.
As performances da DeepSeek continuam a alimentar especulações. O modelo DeepSeek R1, o primeiro modelo de raciocínio da startup, baseado no V3, e cujas capacidades de raciocínio avançadas surpreenderam os especialistas com custos de treinamento e uso significativamente inferiores aos de seus concorrentes americanos, conseguiu perturbar Wall Street.
Segundo um artigo publicado por La Tribune ontem, os Estados Unidos querem encontrar uma explicação para o "mistério DeepSeek" em uma possível contrabando de chips Nvidia. Nenhuma hipótese técnica está descartada, mas seria um erro não ver na DeepSeek um novo ator de referência em IA Open Source, como atesta este repositório no github extremamente interessante.
Para entender melhor
O que é a arquitetura Mixture-of-Experts utilizada no DeepSeek-V3-0324?
A arquitetura Mixture-of-Experts (MoE) envolve o uso de diferentes submodelos especializados, ou 'especialistas', ativados com base nas necessidades da tarefa. Isso permite uma alocação eficiente de recursos computacionais, otimizando o desempenho para tarefas específicas sem sobrecarregar o sistema.
Como funciona a Atenção Latente Multi-cabeças (MLA) no DeepSeek-V3-0324?
A Atenção Latente Multi-cabeças (MLA) no DeepSeek-V3-0324 melhora o processamento comprimindo conjuntamente as chaves e valores de atenção. Isso reduz o tamanho do cache Key-Value durante a inferência, otimizando o uso da memória enquanto mantém alta eficiência de processamento.