Mistral AI запускає Mistral Small 3.1: новий стандарт для відкритого коду в ІІ?

Mistral AI запускає Mistral Small 3.1: новий стандарт для відкритого коду в ІІ?

У короткому : Mistral AI запустив Small 3.1, покращену версію свого мовного моделі Small 3, яка пропонує вищу продуктивність з компактною архітектурою. Ця модель підходить для завдань, що вимагають просунутого розуміння довгих текстів та зображень, дозволяючи компаніям зберігати контроль над своїми даними без залежності від хмарної інфраструктури.

30 січня Mistral AI, французький єдиноріг у сфері GenAI, представив Small 3, LLM з 24 мільярдами параметрів, демонструючи, що для високої продуктивності LLM не потребує астрономічної кількості параметрів. Small 3.1, його наступник, зберігає компактну архітектуру, водночас впроваджуючи значні покращення у продуктивності, мультимодальному розумінні та управлінні довгими контекстами, перевершуючи такі моделі, як Gemma 3-it 27B від Google та GPT-4o Mini від OpenAI.

Як і його попередник, Small 3.1 має 24 мільярди параметрів і може бути розгорнутий на доступних апаратних конфігураціях, таких як ПК з одним GPU RTX 4090 або Mac з оперативною пам’яттю 32 ГБ, що дозволяє компаніям зберігати контроль над своїми конфіденційними даними без залежності від централізованої хмарної інфраструктури. Швидкість інференції залишається тією ж: 150 токенів на секунду, що гарантує мінімальну затримку для застосунків, які потребують миттєвих відповідей. Вірний своїм зобов’язанням на користь відкритого коду, Mistral AI пропонує обидві моделі під ліцензією Apache 2.0, дозволяючи спільноті використовувати, налаштовувати та розгортати для різних випадків використання.

Джерело: Mistral AI

Оптимізація продуктивності

Якщо Small 3.1 базується на Small 3, одним з основних досягнень є розширення контекстного вікна з 32 000 до 128 000 токенів, що є важливим для завдань, що передбачають міркування над довгими послідовностями тексту. У той час як Mistral Small 3 зосереджувався переважно на тексті, версія 3.1 покращує інтерпретацію зображень і документів, що вигідно позиціонує його проти невеликих пропрієтарних моделей і відкриває двері для різноманітних застосувань, від промислового контролю якості до документального розпізнавання та автоматичного аналізу медичних зображень.
Mistral Small 3.1 доступний у двох форматах:
  • Навчена версія, Mistral Small 3.1 Instruct, готова для використання у розмовних завданнях та розумінні мови;
  • Попередньо навчена версія, Mistral Small 3.1 Base, ідеальна для доопрацювання та спеціалізації на конкретних областях (охорона здоров'я, фінанси, юридичні питання тощо).
 
Версія Instruct є однією з найкращих моделей у своїй категорії, перевершуючи своїх конкурентів у бенчмарках, що вимагають міркувань і контекстного розуміння. Згідно з бенчмарками, наданими Mistral AI:
  • Small 3.1 Instruct демонструє кращі результати, ніж Gemma 3-it (27B) від Google у текстових, мультимодальних та багатомовних завданнях;
  • Він перевершує GPT-4o Mini від OpenAI у бенчмарках, таких як MMLU, HumanEval та LongBench v2, завдяки розширеному контекстному вікну до 128 000 токенів;
  • Він також перевершує Claude-3.5 Haiku у складних завданнях, що передбачають довгі контексти та мультимодальні дані;
  • Він відмінно виступає проти Cohere Aya-Vision (32B) у мультимодальних бенчмарках, таких як ChartQA та DocVQA, демонструючи просунуте розуміння візуальних та текстових даних;
  • Small 3.1 демонструє високі результати у багатомовності, перевершуючи своїх конкурентів у категоріях, таких як європейські та азійські мови.
Mistral Small 3.1 можна завантажити на платформі Huggingface та протестувати на платформі Mistral AI. Він також доступний на Google Cloud Vertex AI та буде запропонований на NVIDIA NIM у найближчі тижні.

Краще зрозуміти

Що таке LLM (велика мовна модель) з точки зору технології та функціонування?

LLM - це модель штучного інтелекту, розроблена для розуміння та генерації природної мови. Вона складається з мільярдів параметрів, які налаштовуються через тренування на великих обсягах тексту для передбачення наступного слова у реченні. LLMи використовуються для таких застосувань, як автоматичний переклад, підсумовування тексту та розмовні агенти.

Що таке ліцензія Apache 2.0 і чому вона важлива для проектів з відкритим кодом?

Ліцензія Apache 2.0 - це ліцензія на програмне забезпечення з відкритим кодом, яка дозволяє користувачам вносити значні зміни та використовувати програмне забезпечення в комерційних чи приватних цілях, надаючи при цьому патенти. Вона важлива, оскільки забезпечує, що внески залишаються безкоштовними та доступними, сприяючи інноваціям і впровадженню нових технологій.