Günümüzde, organizasyonel verilerin yaklaşık %90'ı dijital belgeler biçiminde saklanırken, bu verilerin etkili bir şekilde kullanılması stratejik bir öneme sahiptir. Bu potansiyelden yararlanmak için Mistral AI, belge anlayışında yeni bir standart oluşturan bir optik karakter tanıma API'si olan Mistral OCR'yi piyasaya sürüyor.
Optik karakter tanıma (OCR, Optical Character Recognition) taranmış belgeleri, görüntüleri veya PDF dosyalarını yazılım tarafından işlenebilir metne dönüştürmeye olanak tanıyan bir teknolojidir. OCR, harflerin ve sembollerin şeklini analiz ederek onları dijital verilere dönüştürür ve böylece bilgileri erişilebilir, düzenlenebilir ve bilgisayar sistemleri tarafından kullanılabilir hale getirir.
Klasik OCR çözümlerinin aksine, Mistral OCR yalnızca metin çıkarmakla sınırlı kalmaz. Çok modlu yaklaşımı, tabloları, görüntüleri, matematiksel denklemleri ve LaTeX biçimlendirme gibi karmaşık düzenleri anlamasını ve çıkarmasını sağlar. Bu özellik, sunumlar veya bilimsel makaleler gibi çeşitli belgeleri işleyen yapay zeka sistemleri için onu tercih edilen bir araç haline getirir.

Modelin Performansı

Mistral OCR'nin performansı, mevcut en iyi çözümlerle karşılaştırılmıştır. Benchmark sonuçları, kilit alanlarda rakiplerini geride bıraktığını göstermektedir, aşağıdaki tabloda görüldüğü gibi. Tarayıcı belgelerde %98,96 doğruluk oranına ulaşarak, kağıt belgelerin dijitalleştirilmesi için oldukça etkili bir araç olmuştur. Ayrıca, çok dilli işlemde %89,55 puan ile güvenilirliğini kanıtlamış ve birçok dilde %99'un üzerinde doğruluk sergilemiştir.
Model
Genel
Matematik
Çok Dilli
Taranmış
Tablolar
Google Document AI
83.42
80.29
86.42
92.77
78.16
Azure OCR
89.52
85.72
87.52
94.65
89.52
Gemini-1.5-Flash-002
90.23
89.11
86.76
94.87
90.48
Gemini-1.5-Pro-002
89.92
88.48
86.33
96.15
89.71
Gemini-2.0-Flash-001
88.69
84.18
85.80
95.11
91.46
GPT-4o-2024-11-20
89.77
87.55
86.00
94.58
91.70
Mistral OCR 2503
94.89
94.29
89.55
98.96
96.12
Mistral OCR'nin en büyük avantajlarından biri, çalışma hızıdır: tek bir düğümde dakikada 2.000 sayfaya kadar işlem yapabilir. Bu etkinlik, şirketlerin geniş belge arşivlerini rekor sürede kullanılabilir bilgi tabanlarına dönüştürmelerini sağlar, özellikle API'nin diğer bilgisayar sistemleri tarafından kolayca kullanılabilen yapılandırılmış çıkış formatlarını (Markdown, JSON) desteklemesi sayesinde.

İlk Kullanım Alanları

Mistral OCR'nin çok yönlülüğü çeşitli uygulamalara kapı açmaktadır. Mistral AI'ya göre, beta sürümü şu alanlarda kullanılmıştır: 
  • Bilimsel Araştırmanın Dijitalleştirilmesi : Akademik kurumlar, makaleleri ve bilimsel dergileri yapay zeka motorları tarafından işlenebilir formatlara dönüştürmek için Mistral OCR'yi kullanmıştır;
  • Kültürel ve Tarihsel Mirasın Korunması : Kuruluşlar, eski el yazmalarını ve diğer miras belgelerini dijitalleştirmek için kullanımını denemiştir;
  • Müşteri Hizmetlerinin Optimizasyonu : Şirketler, manuel ve dokümantasyonları indekslenmiş bilgi tabanlarına dönüştürme olasılığını araştırarak müşteri taleplerine yanıt sürelerini kısaltmıştır;
  • Teknik ve Mevzuat Edebiyatının Dönüştürülmesi : Eğitim, hukuk, mühendislik gibi çeşitli sektörlerden şirketler, sunumlar, teknik raporlar ve düzenleyici belgelerden veri yapılandırmak için Mistral OCR'yi test etmiştir.
Mistral OCR, 'La Plateforme' üzerinde zaten mevcut olup, yakında unicorn'un bulut ortakları aracılığıyla da erişilebilir olacaktır. Hassas verileri yöneten şirketler, yerinde dağıtım seçeneğini tercih edebilir. Ayrıca 'Le Chat' üzerinde ücretsiz deneme imkanı da bulunmaktadır.