Mistral AI, Mistral Small 3.1 출시: 오픈 소스 AI의 새로운 기준?

Mistral AI, Mistral Small 3.1 출시: 오픈 소스 AI의 새로운 기준?

TLDR : Mistral AI가 Small 3.1을 출시했습니다. 이 모델은 컴팩트한 아키텍처로 우수한 성능을 제공하며, 긴 텍스트 및 이미지에 대한 고급 이해를 필요로 하는 작업에 적합합니다. 기업은 클라우드 인프라에 의존하지 않고 데이터 제어를 유지할 수 있습니다.

지난 1월 30일, 프랑스의 유니콘 기업인 Mistral AI는 240억 개의 매개변수를 가진 LLM인 Small 3을 출시하여, 뛰어난 성능을 위해서는 LLM이 천문학적인 매개변수를 필요로 하지 않는다는 것을 증명했습니다. 그 후속 모델인 Small 3.1은 컴팩트한 아키텍처를 유지하면서 성능, 멀티모달 이해 및 긴 문맥 관리 측면에서 중요한 개선을 도입하여 Google의 Gemma 3-it 27B와 OpenAI의 GPT-4o Mini와 같은 모델을 능가합니다.

Small 3.1은 전작과 마찬가지로 240억 개의 매개변수를 가지고 있으며, RTX 4090 GPU 하나로 작동하는 PC나 32GB RAM을 가진 Mac과 같은 접근 가능한 하드웨어 구성에서 배포할 수 있어 기업들이 중앙 집중식 클라우드 인프라에 의존하지 않고 민감한 데이터를 제어할 수 있도록 합니다. 추론 속도는 초당 150 토큰으로 동일하여 즉각적인 응답이 필요한 애플리케이션에 최소한의 지연을 보장합니다. 오픈 소스에 대한 약속을 지키며, Mistral AI는 두 모델을 Apache 2.0 라이선스로 제공하여 커뮤니티가 다양한 사용 사례에 맞게 사용, 조정 및 배포할 수 있도록 합니다. 

출처: Mistral AI

성능 최적화

Small 3.1은 Small 3을 기반으로 하여, 주요 발전 중 하나는 32,000에서 128,000 토큰으로의 문맥 창 확장으로, 긴 텍스트 시퀀스에서의 추론을 포함한 작업에 필수적인 장점입니다. Mistral Small 3이 주로 텍스트에 초점을 맞췄던 반면, 버전 3.1은 이미지와 문서의 해석을 개선하여 소형 독점 모델과의 경쟁에서 유리한 위치를 차지하게 하며, 산업 품질 관리에서 문서 인식 및 의료 이미지의 자동 분석에 이르기까지 다양한 응용 프로그램의 문을 엽니다.
Mistral Small 3.1은 두 가지 형식으로 제공됩니다: 
  • 대화 및 언어 이해 작업에 사용할 준비가 된 교육된 버전인 Mistral Small 3.1 Instruct
  • 세부 조정 및 특정 도메인(건강, 금융, 법률 등)에 대한 전문화에 이상적인 사전 훈련된 버전인 Mistral Small 3.1 Base,
 
Instruct 버전은 해당 카테고리에서 최고의 모델 중 하나로, 추론 및 문맥 이해를 필요로 하는 벤치마크에서 경쟁자를 능가합니다. Mistral AI가 공유한 벤치마크에 따르면:
  • Small 3.1 Instruct는 Google의 Gemma 3-it (27B)을 텍스트, 멀티모달 및 다국어 작업에서 뛰어넘습니다;
  • GPT-4o Mini를 MMLU, HumanEval 및 LongBench v2와 같은 벤치마크에서 능가하며, 특히 128,000 토큰으로 확장된 문맥 창 덕분입니다; 
  • 복잡한 긴 문맥 및 멀티모달 데이터를 포함한 작업에서 Claude-3.5 Haiku를 능가합니다;
  • ChartQA 및 DocVQA와 같은 멀티모달 벤치마크에서 Cohere Aya-Vision (32B)을 능가하여 시각 및 텍스트 데이터의 고급 이해를 입증합니다;
  • Small 3.1은 유럽 및 아시아 언어와 같은 카테고리에서 경쟁자를 능가하며 다국어 지원에서 높은 성능을 보여줍니다.
Mistral Small 3.1은 Huggingface 플랫폼에서 다운로드할 수 있으며 Mistral AI 플랫폼에서 테스트할 수 있습니다. Google Cloud Vertex AI에서도 사용 가능하며, NVIDIA NIM에서도 곧 제공될 예정입니다.

더 잘 이해하기

LLM(대규모 언어 모델)이란 기술 및 기능 측면에서 무엇입니까?

LLM은 자연어를 이해하고 생성하도록 설계된 인공지능 모델입니다. 수십억 개의 매개 변수로 구성되어 있으며, 방대한 텍스트에서의 훈련을 통해 조정되어 문장에서 다음 단어를 예측합니다. LLM은 자동 번역, 텍스트 요약, 대화 에이전트 등의 응용 프로그램에 사용됩니다.

Apache 2.0 라이선스는 무엇이며, 오픈소스 프로젝트에 왜 중요합니까?

Apache 2.0 라이선스는 사용자가 중요한 수정을 하고 상업적 또는 개인적 목적으로 소프트웨어를 사용할 수 있도록 하면서 특허를 부여하는 오픈소스 소프트웨어 라이선스입니다. 기여가 무료로 유지되고 접근 가능한지 보장하여 혁신과 새로운 기술의 채택을 촉진하기 때문에 중요합니다.