Enquanto o desempenho dos LLMs ocupa as manchetes, os modelos de codificador permanecem como blocos fundamentais do PNL e estão entre os mais baixados no Hugging Face. Desenvolvido graças a uma colaboração entre o laboratório MICS de CentraleSupélec, Diabolocom, Artefact e Unbabel, a suíte de codificadores open source EuroBERT representa um avanço significativo no domínio do PNL multilíngue, combinando soberania, transparência e desempenho.
O EuroBert, desenvolvido no contexto de três teses em andamento, está disponível em três tamanhos (210 milhões, 610 milhões e 2,1 bilhões de parâmetros). Ele se inspira de perto na arquitetura do Llama 3 e foi treinado em um corpus de 5 trilhões de tokens (ou seja, duas vezes mais que os codificadores clássicos), incluindo conjuntos de dados multilíngues, de código e de matemática.
O pipeline de treinamento compreende duas fases: a pré-formação e a fase de ajuste, utilizando o objetivo de modelagem de linguagem mascarada (MLM).
Ele suporta oito principais línguas europeias (inglês, francês, alemão, espanhol, italiano, neerlandês, português e polonês) e sete línguas extra-europeias (chinês, russo, japonês, vietnamita, árabe, turco e hindi).
Um diferencial importante do EuroBERT reside na sua capacidade de gerenciar nativamente sequências de até 8.192 tokens, enquanto modelos de codificador clássicos como BERT e suas variantes (como RoBERTa) geralmente estão limitados a sequências de 512 tokens, o que pode fragmentar a compreensão do texto. Este comprimento de contexto estendido reforça a precisão das análises, mesmo para as tarefas de PNL mais complexas.

Aplicações variadas

As capacidades do EuroBERT posicionam-no como um bloco essencial para:
  • A busca de informação e extração de texto : sua eficácia na localização e classificação de documentos abre perspectivas para empresas em busca de otimização de seus fluxos de informação;
  • O tratamento de linguagem técnica e científica : seu treinamento avançado permite melhor compreensão e análise de textos complexos, especialmente em matemática e programação;
  • A tradução e o resumo automático : ele rivaliza com as soluções de ponta existentes, garantindo precisão adaptada às línguas europeias.

Uma colaboração público-privada frutífera

Este projeto foi conduzido pelos doutorandos cifre Nicolas Boizard, Hippolyte Gisserot-Boukhlef e Duarte Alves, sob a supervisão de Pierre Colombo, Céline Hudelot, e André Martins. Além das equipes do MICS, do IST, da Diabolocom, da Artefact e da Unbabel, recebeu o apoio de equipes da Université Grenoble Alpes, do CNRS, do LISN (Laboratório Interdisciplinar de Ciências do Digital), da Illuin Technology, do IRT Saint-Exupéry e do CINES. O artigo sobre seus trabalhos está disponível em https://arxiv.org/abs/2503.05500.
Treinado no supercomputador Adastra do Genci, o EuroBERT abre perspectivas estratégicas para empresas e pesquisa. Além de um avanço técnico, ilustra a capacidade da Europa de inovar e desenvolver soluções de IA soberanas.
Totalmente open source, está disponível sob a licença Apache 2.0 em https://huggingface.co/EuroBERT