Hoy en día, mientras que cerca del 90% de los datos organizacionales se almacenan en forma de documentos digitales, su explotación eficaz es un reto estratégico. Para aprovechar su potencial, Mistral AI lanza Mistral OCR, una API de reconocimiento óptico de caracteres que establece un nuevo estándar en la comprensión de documentos.
El reconocimiento óptico de caracteres (OCR, por sus siglas en inglés de Optical Character Recognition) es una tecnología que permite convertir documentos digitalizados, imágenes o archivos PDF en texto utilizable por software. El OCR analiza las formas de las letras y los símbolos para transcribirlos en datos digitales, haciendo que la información sea accesible, modificable y explotable por sistemas informáticos.
A diferencia de las soluciones OCR clásicas, Mistral OCR no se limita a la extracción de texto. Su enfoque multimodal le permite comprender y extraer tablas, imágenes, ecuaciones matemáticas y maquetaciones complejas como el formato LaTeX. Esta capacidad lo convierte en una herramienta ideal para los sistemas de IA que utilizan documentos variados, tales como presentaciones o artículos científicos.

El rendimiento del modelo

El rendimiento de Mistral OCR ha sido evaluado frente a las mejores soluciones existentes. Los resultados de los benchmarks muestran que supera a sus competidores en todos los ámbitos clave, como se puede ver en la tabla a continuación. En los documentos escaneados, alcanza una precisión del 98,96%, lo que lo convierte en una herramienta particularmente eficaz para la digitalización de documentos en papel. También confirma su fiabilidad en el procesamiento multilingüe con una puntuación del 89,55%, llegando a mostrar una exactitud superior al 99% para varios idiomas.
Modelo
General
Matemáticas
Multilingüe
Escaneados
Tablas
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12
Uno de los principales puntos fuertes de Mistral OCR reside en su rapidez de ejecución: puede procesar hasta 2,000 páginas por minuto en un solo nodo. Esta eficiencia permite a las empresas transformar sus vastos archivos documentales en bases de conocimiento explotables en un tiempo récord, especialmente porque la API gestiona formatos de salida estructurados (Markdown, JSON), fácilmente utilizables por otros sistemas informáticos.

Primeros casos de uso

La versatilidad de Mistral OCR abre el camino a aplicaciones variadas. Según Mistral AI, su versión beta ha sido utilizada en los siguientes casos: 
  • Digitalización de la investigación científica : Instituciones académicas han utilizado Mistral OCR para convertir artículos y revistas científicas en formatos explotables por motores de inteligencia artificial;
  • Preservación del patrimonio cultural e histórico : Organizaciones han experimentado su uso para digitalizar manuscritos antiguos y otros documentos patrimoniales;
  • Optimización del servicio al cliente : Empresas han explorado la posibilidad de convertir manuales y documentaciones en bases de conocimiento indexadas, reduciendo así los tiempos de respuesta a las solicitudes de los clientes;
  • Transformación de la literatura técnica y regulatoria : Empresas de diversos sectores (educación, derecho, ingeniería) han probado Mistral OCR para estructurar datos de presentaciones, informes técnicos y documentos regulatorios.
Mistral OCR ya está disponible en "La Plataforma" y lo estará próximamente a través de los socios en la nube de la unicornio. Las empresas que gestionan datos sensibles podrán optar por un despliegue en sitio. Además, es posible probarlo gratuitamente en "El Chat".