Mistral AI lanceert Mistral Small 3.1: een nieuwe standaard voor open source AI?

Mistral AI lanceert Mistral Small 3.1: een nieuwe standaard voor open source AI?

In kort : Mistral AI heeft Small 3.1 gelanceerd, een verbeterde versie van zijn taalmodel Small 3, die superieure prestaties biedt met een compacte architectuur. Dit model is geschikt voor taken die een geavanceerd begrip van lange teksten en afbeeldingen vereisen, terwijl bedrijven de controle over hun gegevens behouden zonder afhankelijk te zijn van een cloudinfrastructuur.

Op 30 januari introduceerde de Franse unicorn Mistral AI de Small 3, een LLM met 24 miljard parameters, waarmee werd aangetoond dat een LLM niet een astronomisch aantal parameters nodig heeft om goed te presteren. Small 3.1, zijn opvolger, behoudt een compacte architectuur en introduceert tegelijkertijd aanzienlijke verbeteringen op het gebied van prestaties, multimodale begrip en lange contextbeheer, waardoor het modellen zoals Google’s Gemma 3-it 27B en OpenAI's GPT-4o Mini overtreft.

Net als zijn voorganger telt Small 3.1 24 miljard parameters en kan het worden ingezet op toegankelijke hardwareconfiguraties, zoals een pc met een enkele RTX 4090 GPU of een Mac met 32 GB RAM, wat bedrijven in staat stelt om controle te houden over hun gevoelige gegevens zonder afhankelijk te zijn van een gecentraliseerde cloudinfrastructuur. De inferentiesnelheid is hetzelfde: 150 tokens per seconde, wat een minimale latentie garandeert voor applicaties die onmiddellijke antwoorden vereisen. In lijn met zijn inzet voor open source, biedt Mistral AI beide modellen aan onder de Apache 2.0-licentie, waardoor de community ze kan gebruiken, verfijnen en inzetten voor verschillende gebruiksscenario's.

Bron: Mistral AI

Optimalisatie van de prestaties

Hoewel Small 3.1 voortbouwt op Small 3, ligt een van de belangrijkste doorbraken in de uitbreiding van het contextvenster van 32.000 naar 128.000 tokens, een essentiële troef voor taken die redeneren over lange tekstreeksen vereisen. Terwijl Mistral Small 3 zich voornamelijk richtte op tekst, verbetert versie 3.1 de interpretatie van afbeeldingen en documenten, wat het gunstig positioneert tegenover propriëtaire kleine modellen en de deur opent naar diverse toepassingen, variërend van industriële kwaliteitscontrole tot documentherkenning en automatische analyse van medische beelden.
Mistral Small 3.1 is beschikbaar in twee formaten:
  • Een geïnstrueerde versie, Mistral Small 3.1 Instruct, klaar voor gebruik voor gespreks- en taalbegripstaken;
  • Een voorgetrainde versie, Mistral Small 3.1 Base, ideaal voor fine-tuning en specialisatie in specifieke domeinen (gezondheid, financiën, juridisch, etc.).
 
De Instruct-versie is een van de beste modellen in zijn categorie, en overtreft zijn concurrenten op benchmarks die redeneren en contextueel begrip vereisen. Volgens de door Mistral AI gedeelde benchmarks:
  • Toont Small 3.1 Instruct betere prestaties dan Google’s Gemma 3-it (27B) bij tekstuele, multimodale en meertalige taken;
  • Overtreft het GPT-4o Mini van OpenAI in benchmarks zoals MMLU, HumanEval en LongBench v2, met name dankzij zijn uitgebreide contextvenster tot 128.000 tokens;
  • Overschrijdt het ook Claude-3.5 Haiku bij complexe taken die lange contexten en multimodale gegevens omvatten;
  • Excelleert het tegenover Cohere Aya-Vision (32B) in multimodale benchmarks zoals ChartQA en DocVQA, waarmee het een geavanceerd begrip van visuele en tekstuele gegevens aantoont;
  • Toont Small 3.1 hoge prestaties in meertaligheid, en overtreft het zijn concurrenten in categorieën zoals Europese en Aziatische talen.
Mistral Small 3.1 kan worden gedownload op het platform Huggingface en getest op het Mistral AI Platform. Het is ook beschikbaar op Google Cloud Vertex AI en zal de komende weken worden aangeboden op NVIDIA NIM.

Beter begrijpen

Wat is een LLM (Large Language Model) in termen van technologie en functie?

Een LLM is een kunstmatig intelligentiemodel dat ontworpen is om natuurlijke taal te begrijpen en te genereren. Het bestaat uit miljarden parameters die worden aangepast door training op grote hoeveelheden tekst om het volgende woord in een zin te voorspellen. LLM's worden gebruikt voor toepassingen zoals automatische vertaling, tekstsamenvattingen en conversatieagenten.

Wat is de Apache 2.0-licentie en waarom is deze belangrijk voor open-sourceprojecten?

De Apache 2.0-licentie is een open-source softwarelicentie die gebruikers in staat stelt aanzienlijke wijzigingen aan te brengen en de software voor commerciële of privédoeleinden te gebruiken, terwijl patenten worden verleend. Het is belangrijk omdat het ervoor zorgt dat bijdragen vrij en toegankelijk blijven, wat innovatie en de acceptatie van nieuwe technologieën bevordert.