Hoje, enquanto cerca de 90% dos dados organizacionais são armazenados como documentos digitais, sua exploração eficaz é uma questão estratégica. Para aproveitar seu potencial, a Mistral AI lança o Mistral OCR, uma API de reconhecimento óptico de caracteres que estabelece um novo padrão em compreensão de documentos.
O reconhecimento óptico de caracteres (OCR, ou Optical Character Recognition) é uma tecnologia que permite converter documentos digitalizados, imagens ou arquivos PDF em texto utilizável por softwares. O OCR analisa as formas das letras e símbolos para transcrevê-los em dados digitais, tornando as informações acessíveis, modificáveis e utilizáveis por sistemas informáticos.
Ao contrário das soluções OCR clássicas, o Mistral OCR não se limita à extração de texto. Sua abordagem multimodal permite compreender e extrair tabelas, imagens, equações matemáticas e layouts complexos, como o formato LaTeX. Essa capacidade faz dele uma ferramenta de escolha para sistemas de IA que utilizam documentos variados, como apresentações ou artigos científicos.

O desempenho do modelo

O desempenho do Mistral OCR foi avaliado em comparação com as melhores soluções existentes. Os resultados dos benchmarks mostram que ele supera os concorrentes em todas as áreas-chave, como pode ser visto na tabela abaixo. Em documentos escaneados, ele atinge uma precisão de 98,96%, tornando-o uma ferramenta particularmente eficaz para digitalização de documentos em papel. Ele também confirma sua confiabilidade no processamento multilíngue com uma pontuação de 89,55%, chegando a exibir uma precisão superior a 99% para várias línguas.
Modelo
Geral
Matemática
Multilíngue
Escaneado
Tabelas
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12
Um dos principais trunfos do Mistral OCR reside em sua velocidade de execução: ele pode processar até 2.000 páginas por minuto em um único nó. Essa eficiência permite que as empresas transformem seus vastos arquivos documentais em bases de conhecimento utilizáveis em tempo recorde, ainda mais considerando que a API gerencia formatos de saída estruturados (Markdown, JSON), facilmente utilizáveis por outros sistemas informáticos.

Primeiros casos de uso

A versatilidade do Mistral OCR abre caminho para aplicações variadas. Segundo a Mistral AI, sua versão beta foi explorada nos seguintes casos: 
  • Digitalização de pesquisa científica: Instituições acadêmicas usaram o Mistral OCR para converter artigos e revistas científicas em formatos utilizáveis por motores de inteligência artificial;
  • Preservação do patrimônio cultural e histórico: Organizações experimentaram seu uso para digitalizar manuscritos antigos e outros documentos patrimoniais;
  • Otimização do atendimento ao cliente: Empresas exploraram a possibilidade de converter manuais e documentações em bases de conhecimento indexadas, reduzindo assim o tempo de resposta às solicitações dos clientes;
  • Transformação da literatura técnica e regulatória: Empresas de diversos setores (educação, direito, engenharia) testaram o Mistral OCR para estruturar dados de apresentações, relatórios técnicos e documentos regulatórios.
Mistral OCR já está disponível na "La Plateforme" e estará em breve através dos parceiros de nuvem da unicórnio. As empresas que gerenciam dados sensíveis poderão optar por uma implantação no local. Além disso, é possível experimentá-lo gratuitamente no "Le Chat".