Mistral AI wprowadza Mistral Small 3.1: nowy standard dla open source AI?

Mistral AI wprowadza Mistral Small 3.1: nowy standard dla open source AI?

W skrócie : Mistral AI wprowadził Small 3.1, ulepszoną wersję swojego modelu Small 3, oferującą lepsze osiągi z kompaktową architekturą, przystosowaną do zadań z długimi tekstami i obrazami, bez zależności od chmury.

30 stycznia Mistral AI, francuski jednorożec w dziedzinie GenAI, wprowadził Small 3, LLM o 24 miliardach parametrów, udowadniając, że aby być wydajnym, LLM nie wymaga astronomicznej liczby parametrów. Jego następca, Small 3.1, zachowuje kompaktową architekturę, wprowadzając jednocześnie znaczące ulepszenia w zakresie wydajności, zrozumienia multimodalnego i zarządzania długimi kontekstami, przewyższając modele takie jak Gemma 3-it 27B od Google i GPT-4o Mini od OpenAI.

Podobnie jak jego poprzednik, Small 3.1 zawiera 24 miliardy parametrów i może być wdrożony na dostępnych konfiguracjach sprzętowych, takich jak PC z jednym GPU RTX 4090 lub Mac z 32 GB pamięci RAM, co pozwala firmom zachować kontrolę nad danymi wrażliwymi bez polegania na scentralizowanej infrastrukturze chmurowej. Szybkość inferencji jest taka sama: 150 tokenów na sekundę, zapewniając minimalną latencję dla aplikacji wymagających natychmiastowych odpowiedzi. Wierny swojemu zobowiązaniu do open source, Mistral AI oferuje oba modele na licencji Apache 2.0, umożliwiając społeczności ich używanie, dostosowywanie i wdrażanie do różnych zastosowań.

Źródło: Mistral AI

Optymalizacja wydajności

Chociaż Small 3.1 opiera się na Small 3, jedną z głównych innowacji jest rozszerzenie okna kontekstowego z 32 000 do 128 000 tokenów, co jest kluczowe dla zadań wymagających rozumowania na długich sekwencjach tekstu. Podczas gdy Mistral Small 3 koncentrował się głównie na tekście, wersja 3.1 poprawia interpretację obrazów i dokumentów, co stawia go korzystnie w porównaniu z niewielkimi modelami własnościowymi i otwiera drogę do różnych zastosowań, od kontroli jakości przemysłowej po rozpoznawanie dokumentów i automatyczną analizę obrazów medycznych.
Mistral Small 3.1 jest dostępny w dwóch formatach:
  • Wersja instruowana, Mistral Small 3.1 Instruct, gotowa do użycia w zadaniach konwersacyjnych i zrozumienia języka;
  • Wersja wstępnie wytrenowana, Mistral Small 3.1 Base, idealna do fine-tuningu i specjalizacji w określonych dziedzinach (zdrowie, finanse, prawo itp.).
 
Wersja Instruct jest jednym z najlepszych modeli w swojej kategorii, przewyższając konkurencję w benchmarkach wymagających rozumowania i zrozumienia kontekstowego. Według benchmarków udostępnionych przez Mistral AI:
  • Small 3.1 Instruct wykazuje lepszą wydajność niż Gemma 3-it (27B) od Google w zadaniach tekstowych, multimodalnych i wielojęzycznych;
  • Przewyższa GPT-4o Mini od OpenAI w benchmarkach takich jak MMLU, HumanEval i LongBench v2, szczególnie dzięki rozszerzonemu oknu kontekstowemu do 128 000 tokenów;
  • Przewyższa także Claude-3.5 Haiku w złożonych zadaniach obejmujących długie konteksty i dane multimodalne;
  • Przewyższa Cohere Aya-Vision (32B) w benchmarkach multimodalnych takich jak ChartQA i DocVQA, wykazując zaawansowane zrozumienie danych wizualnych i tekstowych;
  • Small 3.1 wykazuje wysoką wydajność w wielojęzyczności, przewyższając swoich konkurentów w kategoriach takich jak języki europejskie i azjatyckie.
Mistral Small 3.1 można pobrać na platformie Huggingface i testować na platformie Mistral AI. Jest również dostępny na Google Cloud Vertex AI i wkrótce będzie dostępny na NVIDIA NIM.

Bardziej zrozumiałe

Czym jest LLM (duży model językowy) pod względem technologii i funkcjonowania?

LLM to model sztucznej inteligencji zaprojektowany do rozumienia i generowania języka naturalnego. Składa się z miliardów parametrów dostosowywanych poprzez trenowanie na dużych zbiorach tekstu w celu przewidywania następnego słowa w zdaniu. LLM-y są wykorzystywane w aplikacjach takich jak automatyczne tłumaczenie, podsumowanie tekstu i agenci konwersacyjni.

Co to jest licencja Apache 2.0 i dlaczego jest ważna dla projektów open source?

Licencja Apache 2.0 to licencja na oprogramowanie open source, która pozwala użytkownikom dokonywać znacznych modyfikacji i używać oprogramowania do celów komercyjnych lub prywatnych, przyznając jednocześnie patenty. Jest ważna, ponieważ zapewnia, że wkłady pozostają bezpłatne i dostępne, wspierając innowacje i przyjmowanie nowych technologii.