Geçtiğimiz 30 Ocak'ta, Fransız GenAI unicornu Mistral AI, 24 milyar parametreye sahip bir LLM olan Small 3'ü tanıtarak, bir LLM'nin etkili olması için astronomik sayıda parametreye ihtiyaç duymadığını gösterdi. Halefi Small 3.1, kompakt mimarisini korurken, performans, çok modlu anlama ve uzun bağlam yönetimi açısından önemli iyileştirmeler sunarak Google'ın Gemma 3-it 27B ve OpenAI'nin GPT-4o Mini gibi modelleri geride bıraktı.

Önceki sürümü gibi, Small 3.1 de 24 milyar parametreye sahiptir ve bir RTX 4090 GPU'ya sahip bir PC veya 32 GB RAM'e sahip bir Mac gibi erişilebilir donanım yapılandırmalarında çalıştırılabilir, bu da işletmelerin merkezi bir bulut altyapısına bağımlı kalmadan hassas verilerini kontrol altında tutmasına olanak tanır. Çıkarım hızı aynı kalmıştır: saniyede 150 token, anında yanıt gerektiren uygulamalar için minimum gecikme sağlar. Açık kaynak taahhüdüne sadık kalan Mistral AI, her iki modeli de topluluğun çeşitli kullanım durumları için kullanmasına, iyileştirmesine ve dağıtmasına olanak tanıyan Apache 2.0 lisansı altında sunmaktadır.

Kaynak: Mistral AI

Performans Optimizasyonu

Small 3.1, Small 3'e dayanıyor, ancak büyük yeniliklerinden biri, bağlam penceresinin 32.000'den 128.000 token'a genişletilmesi; bu, uzun metin dizileri üzerinde akıl yürütme gerektiren görevler için önemli bir avantaj. Mistral Small 3 öncelikle metin üzerine odaklanırken, 3.1 sürümü, resim ve belgelerin yorumlanmasını geliştirir, bu da onu küçük boyutlu tescilli modellere karşı avantajlı bir konuma getirir ve endüstriyel kalite kontrolünden belge tanıma ve otomatik tıbbi görüntü analizine kadar çeşitli uygulamalara kapı açar.
Mistral Small 3.1, iki formatta mevcuttur:
  • Eğitimli bir sürüm, Mistral Small 3.1 Instruct, dil anlama ve konuşma görevleri için kullanıma hazırdır;
  • Önceden eğitilmiş bir sürüm, Mistral Small 3.1 Base, belirli alanlarda (sağlık, finans, hukuk vb.) ince ayar ve uzmanlaşma için idealdir.
 
Instruct sürümü, kendi kategorisindeki en iyi modellerden biridir ve bağlamsal anlama ve akıl yürütme gerektiren karşılaştırmalarda rakiplerini geride bırakır. Mistral AI tarafından paylaşılan karşılaştırmalara göre:
  • Small 3.1 Instruct, Google'ın Gemma 3-it (27B) modelinden metin, çok modlu ve çok dilli görevlerde daha iyi performans gösterir;
  • GPT-4o Mini'yi OpenAI'den MMLU, HumanEval ve LongBench v2 gibi karşılaştırmalarda, 128.000 token'a genişletilmiş bağlam penceresi sayesinde aşar;
  • Claude-3.5 Haiku'yu uzun bağlamlar ve çok modlu veriler içeren karmaşık görevlerde aşar;
  • Cohere Aya-Vision (32B) modeline karşı ChartQA ve DocVQA gibi çok modlu karşılaştırmalarda, gelişmiş görsel ve metinsel veri anlama göstererek üstünlük sağlar;
  • Small 3.1, çok dillilikte yüksek performans sergileyerek, Avrupa ve Asya dilleri gibi kategorilerde rakiplerini geride bırakır.
Mistral Small 3.1, Huggingface platformunda indirilebilir ve Mistral AI Platformunda test edilebilir. Google Cloud Vertex AI üzerinde mevcut olup, önümüzdeki haftalarda NVIDIA NIM üzerinde de sunulacaktır.

Daha iyi anlamak

LLM (Large Language Model) nedir, teknoloji ve işleyiş açısından nasıl çalışır?

LLM, doğal dili anlamak ve üretmek için tasarlanmış bir yapay zeka modelidir. Milyarlarca parametreden oluşur ve büyük miktarda metin üzerinde eğitilerek bir cümledeki bir sonraki kelimeyi tahmin eder. LLM'ler otomatik çeviri, metin özetleme ve konuşma aracıları gibi uygulamalarda kullanılır.

Apache 2.0 lisansı nedir ve açık kaynak projeleri için neden önemlidir?

Apache 2.0 lisansı, kullanıcıların önemli değişiklikler yapmasına ve ticari veya özel amaçlarla yazılımı kullanmasına izin veren açık kaynaklı bir yazılım lisansıdır ve patent hakları tanır. Önemlidir çünkü katkıların ücretsiz ve erişilebilir kalmasını sağlar, yeniliği ve yeni teknolojilerin benimsenmesini teşvik eder.