Heute, da fast 90 % der organisatorischen Daten in Form von digitalen Dokumenten gespeichert werden, ist ihre effektive Nutzung eine strategische Herausforderung. Um ihr Potenzial auszuschöpfen, führt Mistral AI Mistral OCR ein, eine API zur optischen Zeichenerkennung, die einen neuen Standard im Dokumentenverständnis setzt.
Die optische Zeichenerkennung (OCR, für Optical Character Recognition) ist eine Technologie, die es ermöglicht, digitalisierte Dokumente, Bilder oder PDF-Dateien in durch Software nutzbaren Text umzuwandeln. OCR analysiert die Formen von Buchstaben und Symbolen, um sie in digitale Daten zu transkribieren, wodurch die Informationen für Computersysteme zugänglich, bearbeitbar und nutzbar werden.
Im Gegensatz zu herkömmlichen OCR-Lösungen beschränkt sich Mistral OCR nicht nur auf die Textextraktion. Sein multimodaler Ansatz ermöglicht es, Tabellen, Bilder, mathematische Gleichungen und komplexe Layouts wie LaTeX-Formatierungen zu verstehen und zu extrahieren. Diese Fähigkeit macht es zu einem bevorzugten Werkzeug für KI-Systeme, die unterschiedliche Dokumente nutzen, wie Präsentationen oder wissenschaftliche Artikel.

Leistungen des Modells

Die Leistungen von Mistral OCR wurden im Vergleich zu den besten bestehenden Lösungen bewertet. Die Ergebnisse der Benchmarks zeigen, dass es seine Konkurrenten in allen Schlüsselbereichen übertrifft, wie in der untenstehenden Tabelle zu sehen ist. Bei gescannten Dokumenten erreicht es eine Genauigkeit von 98,96 %, was es zu einem besonders effektiven Werkzeug für die Digitalisierung von Papierdokumenten macht. Es bestätigt auch seine Zuverlässigkeit in der mehrsprachigen Verarbeitung mit einer Punktzahl von 89,55 %, wobei es für mehrere Sprachen eine Genauigkeit von über 99 % erreicht.
Modell
Gesamt
Mathe
Mehrsprachig
Gescannte
Tabellen
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12
Einer der Hauptvorteile von Mistral OCR liegt in seiner Verarbeitungsgeschwindigkeit: Es kann bis zu 2.000 Seiten pro Minute auf einem einzigen Knoten verarbeiten. Diese Effizienz ermöglicht es Unternehmen, ihre umfangreichen Dokumentarchive in kürzester Zeit in nutzbare Wissensdatenbanken zu verwandeln, zumal die API strukturierte Ausgabeformate (Markdown, JSON) verwaltet, die leicht von anderen Computersystemen genutzt werden können.

Erste Anwendungsfälle

Die Vielseitigkeit von Mistral OCR ebnet den Weg für vielfältige Anwendungen. Laut Mistral AI wurde seine Beta-Version in folgenden Fällen eingesetzt:
  • Digitalisierung wissenschaftlicher Forschung: Akademische Institutionen haben Mistral OCR verwendet, um Artikel und wissenschaftliche Zeitschriften in von KI-Engines nutzbare Formate zu konvertieren;
  • Erhaltung des kulturellen und historischen Erbes: Organisationen haben seinen Einsatz zur Digitalisierung alter Handschriften und anderer Kulturdokumente erprobt;
  • Optimierung des Kundenservices: Unternehmen haben die Möglichkeit erkundet, Handbücher und Dokumentationen in indizierte Wissensdatenbanken umzuwandeln, wodurch die Antwortzeiten auf Kundenanfragen verkürzt werden;
  • Transformation von technischer und regulatorischer Literatur: Unternehmen aus verschiedenen Branchen (Bildung, Recht, Ingenieurwesen) haben Mistral OCR getestet, um Daten aus Präsentationen, technischen Berichten und regulatorischen Dokumenten zu strukturieren.
Mistral OCR ist bereits auf "La Plateforme" verfügbar und wird bald über die Cloud-Partner des Einhorns zugänglich sein. Unternehmen, die sensible Daten verwalten, können sich für eine On-Premise-Bereitstellung entscheiden. Es ist außerdem möglich, es kostenlos auf "Le Chat" auszuprobieren.