LLM : великі мовні моделі та foundation models

Tech family

Великі мовні моделі (Large Language Models, або LLM) - це нейронні мережі, навчені на масивних текстових корпусах для прогнозування найбільш ймовірного продовження послідовності слів. З 2022 року вони стали основним рушієм генеративної IA та ареною безпрецедентної індустріальної конкуренції між OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek та ще близько двадцяти іншими гравцями. Ця сторінка узагальнює їхню архітектуру, основних учасників, еталонні моделі у 2026 році та суперечки, що їх супроводжують.

📰 Actualités récentes

Останні новини

Великі мовні моделі (LLM) продовжують трансформувати ландшафт штучного інтелекту, стаючи важливими інструментами в різних галузях, від кібербезпеки до медицини. Нещодавно DeepSeek представила оновлення своєї моделі R1, DeepSeek-R1-0528, що підсилює її можливості міркування, логіки та програмування. Ця версія, опублікована 28 травня 2025 року, наближається до продуктивності флагманських моделей OpenAI та Google, знижуючи рівень галюцинацій, що є постійною проблемою для LLM. Паралельно, Tencent представила Hunyuan-T1, модель міркування, що використовує інноваційну гібридну архітектуру, щоб конкурувати з лідерами ринку. Ці розробки підкреслюють зростаючу тенденцію до покращення можливостей міркування LLM, ключового елементу в їх здатності інтегруватися в складні та критичні системи.

У сфері кібербезпеки LLM демонструють свій потенціал, полегшуючи виявлення та аналіз загроз. Дослідження Нью-Йоркського університету підкреслює їх здатність використовувати маси текстових даних для передбачення та реагування на атаки, перетворюючи кібербезпеку на більш реактивний та проактивний сектор. Моделі, такі як SecureBERT, спеціалізовані на кібербезпеці, показують обнадійливі результати, хоча їх удосконалення залишається викликом для компаній. Ця еволюція до спеціалізованих LLM відображає тенденцію до диверсифікації застосувань мовних моделей, задовольняючи специфічні потреби та покращуючи їх точність та надійність.

Популярність LLM з відкритим вихідним кодом також продовжує зростати, з ініціативами, такими як Allen Institute for AI, який запустив Tülu 3 405B, потужну модель з відкритим вихідним кодом на базі Llama 3.1. Ця модель відрізняється використанням навчання з підкріпленням з перевіреними винагородами, покращуючи її продуктивність у складних завданнях. Паралельно, Mistral AI запустила Mistral Small 3, модель, оптимізовану для затримки, пропонуючи альтернативу з відкритим вихідним кодом до власних моделей. Ці ініціативи відображають бажання демократизувати доступ до LLM, знижуючи витрати на інференцію, що є критичним питанням для розширення їхнього впровадження, особливо в середовищах з обмеженими ресурсами.

Хоча великі мовні моделі продовжують розвиватися, залишаються виклики, зокрема щодо вартості інференції та впливу на навколишнє середовище. Нещодавно Microsoft представила BitNet.cpp, фреймворк з відкритим вихідним кодом, що оптимізує інференцію LLM, кількісно оцінених до 1 біта, знижуючи їх вуглецевий слід. Ця інновація підкреслює важливість стійкості в еволюції LLM, оскільки розмір і складність моделей продовжують зростати. Крім того, інтеграція LLM в такі галузі, як медична діагностика, ще потребує вдосконалення, дослідження UVA Health показує, що хоча LLM можуть перевершити лікарів у деяких завданнях, їх інтеграція ще не значно покращила загальні діагностичні показники.

Повний посібник

Архітектура: від transformer до сучасних моделей

Архітектура transformer, від якої походять усі сучасні LLM, базується на двох основних компонентах. Перший - механізм auto-attention, що дозволяє моделі обчислювати для кожної позиції тексту зважену комбінацію представлень інших позицій. Ця операція природно паралелізується, що й пояснює, чому transformers витіснили рекурентні архітектури (RNN, LSTM), які домінували в NLP до 2017 року. Другий компонент - stacking десятків ідентичних шарів transformer (зазвичай від 32 до 96 у передових моделях), кожен з яких додає уточнення до представлення.

Сучасні LLM існують у кількох архітектурних варіантах:

dense-моделі, де всі параметри активуються під час кожної інференції (GPT-4 історичний, Claude, Llama 3.1 405B);
моделі Mixture of Experts (MoE), де активується лише кілька експертних підмереж залежно від оброблюваного токена, що знижує вартість інференції при однаковій кількості параметрів (Mixtral, DeepSeek-V3, ймовірно GPT-4o);
нативно мультимодальні моделі, які приймають і генерують текст, зображення, звук і відео в єдиному просторі представлення (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
моделі reasoning (reasoning models), які формують явний chain-of-thought перед відповіддю - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - ціною підвищеної латентності, але з вищою якістю на завданнях математики, логіки та програмування.

Ключові гравці у 2026 році

OpenAI залишається сприйнятим лідером ринку завдяки ChatGPT, GPT-4o, GPT-4o mini та сімейству reasoning-моделей o1/o3. Компанія, оцінена у кілька сотень мільярдів доларів у 2026 році, фінансується переважно Microsoft і SoftBank. Її бізнес-стратегія поєднує API (оплата за токен), масовий продукт (ChatGPT Plus за 20 $/місяць) та корпоративні рішення (ChatGPT Enterprise, Azure OpenAI Service). OpenAI розширила свій портфель за рахунок OAI-SearchBot - власного пошукового краулера - та SearchGPT.

Anthropic, заснована у 2021 році колишніми співробітниками OpenAI, зокрема Даріо та Даніелою Амодей, зробила безпеку своїм ключовим напрямом. Сімейство Claude (Haiku, Sonnet, Opus) особливо цінується за написання текстів, коду та reasoning з довгим контекстом. Anthropic фінансується Amazon, Google і SoftBank. У травні 2026 Anthropic підтвердила оренду частини потужностей Colossus 1 від xAI приблизно за 1,25 мільярда доларів на місяць, що ілюструє концентрацію обчислювальних ресурсів.

Google DeepMind з 2023 року консолідує свої AI-активи під брендом Gemini. Сімейство Gemini (Nano, Flash, Pro, Ultra, а потім Gemini 2.0 Flash у грудні 2024) інтегроване у пошуковий рушій (AI Overviews) та пакет Workspace. Google має структурну перевагу завдяки контролю над тренувальними даними (Web, YouTube, Books) і власною інфраструктурою TPU.

Meta зробила ставку на weights open із сімейством Llama (Llama 1 у лютому 2023, Llama 2 у липні 2023, Llama 3 у квітні 2024, Llama 3.1 405B у липні 2024). Така стратегія демократизувала доступ до foundation models і стимулювала екосистему похідних моделей (Vicuna, Tulu, галузеві fine-tunes). Водночас Meta у липні 2025 відмовилась підписати європейський кодекс добрих практик GPAI і тимчасово призупинила реліз Llama 3 multimodal у Європі.

Mistral AI, заснована в Парижі у квітні 2023 Артуром Меншем, Гійомом Ламплем і Тімоте Лакруа, стала європейським чемпіоном. Її гібридна стратегія поєднує відкриті моделі (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) та пропрієтарні продукти (Mistral Large 2, Pixtral Large). Mistral підписала кодекс добрих практик GPAI і уклала стратегічні партнерства з NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini та SAP.

У Китаї Alibaba (сімейство Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) і особливо DeepSeek не лише наздогнали, а й кинули виклик американським лабораторіям. DeepSeek-V3 вразив спільноту у січні 2025 своєю якістю при вартості тренування приблизно у 30 разів меншій, ніж у західних конкурентів. DeepSeek-R1, випущений слідом і оновлений у червні 2025 (R1-0528), спровокував тимчасове падіння акцій NVIDIA, поставивши під сумнів перевагу гігантських інфраструктур.

Інші гравці мають спеціалізовані ролі: xAI (Grok, інфраструктура Colossus), Cohere (корпоративні багатомовні моделі, Aya 23), AI2 (Tülu 3 405B, повністю open моделі), Aleph Alpha (Pharia-1-LLM німецькою), Black Forest Labs (FLUX-1 для text-to-image), LightOn (Paradigm для бізнесу), Hugging Face (хаб моделей, SmolLM2), OpenEuroLLM (європейський open консорціум).

Референтні моделі 2026 року

Панорама передових LLM у 2026 включає близько десятка сімейств, кожне з власними розмірами та варіантами:

GPT-4o / GPT-4o mini (OpenAI) - нативно мультимодальні, знижена латентність, контекстне вікно 128k токенів. GPT-4o mini став економічним стандартом для масових розгортань.
o1 / o3 (OpenAI) - reasoning-моделі з внутрішнім chain-of-thought, надпотужні для змагань з математики (AIME, IMO) та програмування (Codeforces).
Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - вікно 200k, відмінні для довгих текстів і читання документів.
Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - нативна мультимодальність, інтеграція з Google-екосистемою.
Llama 3.1 405B / Llama 3.3 (Meta) - лідер серед open source dense-моделей.
Mistral Large 2 / Pixtral Large (Mistral AI) - європейські моделі, для деяких версій відкриті weights.
DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - китайські open source, reasoning, рекордно низька вартість тренування.
Qwen2.5 (Alibaba) - лідер серед китайських багатомовних open source, вікно 1M токенів.
NOVA (Amazon) - власне foundation-сімейство, анонсоване у грудні 2024.
Phi-3 / Phi-3.5 (Microsoft) - малі ефективні моделі для embedded.
Hunyuan-T1 (Tencent) - китайська reasoning-модель, що конкурує зі світовим рівнем.
Grok 3 (xAI) - реальний доступ до X, масштабна інфраструктура.

Навчання та витрати

Навчання передового LLM вимагає значних ресурсів. Для GPT-4 публічні оцінки називають бюджет близько 100 мільйонів доларів і десятки тисяч GPU H100 протягом трьох місяців. Для Llama 3.1 405B знадобилося 16 000 H100 і близько 30 мільйонів GPU-годин. Mistral Large 2 і Mixtral, на іншому полюсі європейського спектру, були навчені зі значно скромнішими бюджетами, що доводить можливість досягати конкурентних результатів при ретельній роботі з даними.

Scaling laws, формалізовані OpenAI і надалі уточнені DeepMind (Chinchilla, 2022), довгий час визначали динаміку: якість моделі передбачувано зростає із добутком числа параметрів і обсягу тренувальних даних за умови балансу між ними. Наприкінці 2024 ця формула була поставлена під сумнів: зростання бюджетів більше не дає вражаючих результатів на відкритих бенчмарках, а фокус змістився на інші аспекти - якість даних, reasoning після навчання, агенти, мультимодальність.

Обчислювальна інфраструктура стала ключовим геополітичним питанням. NVIDIA, фактично монополіст на GPU H100/H200/B200, отримує основну частину доданої вартості. Американські експортні обмеження обмежують продажі до Китаю, що змусило DeepSeek і Alibaba оптимізувати тренування під спрощені чипи (H800). xAI у 2024 побудувала дата-центр Colossus у Мемфісі, інтегрувавши 100 000 H100, а згодом 200 000 H100/H200 менш ніж за рік - промисловий рекорд.

Можливості та обмеження

Сучасні LLM опановують широкий спектр завдань: написання текстів, резюмування, переклад, генерація коду, діалог, витяг інформації, класифікація, обробка структурованих і неструктурованих документів. Вони стали стандартними компонентами у багатьох додатках - розмовні пошукові системи, асистенти для коду (Copilot, Cursor), юридичні й медичні агенти, системи підтримки клієнтів, офісні та Workspace-інструменти продуктивності.

Їх обмеження також добре задокументовані. LLM схильні до галюцинацій - генерують правдоподібний, але фактично хибний контент, особливо щодо вузьких тем, точних чисел і бібліографічних посилань. Вони недостатньо стійкі до атак (prompt injection, jailbreak), як показало дослідження EPFL у грудні 2024 щодо адаптивних атак. Вони можуть бути використані для маніпуляції думками користувачів (дослідження EPFL, квітень 2024). Витрачають значні обсяги енергії та води - це питання все більше відстежується регуляторами й акціонерами. Їх упередження відображають тренувальні корпуси, переважно англомовні й північно-західні.

Open source vs пропрієтарне

Поділ між відкритими й закритими LLM структурує дискусію з 2023 року. Прихильники відкритих моделей - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - апелюють до технологічного суверенітету, можливості незалежного аудиту, академічного поширення та промислової стійкості. Опоненти - Anthropic, OpenAI у певних аспектах - наголошують на ризиках поширення шкідливих застосувань (біотероризм, масова дезінформація, шахрайство) та неможливості відкликати модель після публікації.

AI Act частково вирішує питання, надаючи часткові виключення моделям, у яких опубліковані параметри, архітектура й інструкції з використання. Ці виключення не поширюються на моделі із системним ризиком (10²⁵ FLOPS тренування). У 2026 екосистему open source домінують Llama, Mistral, DeepSeek і Qwen, які покривають більшість корпоративних і академічних кейсів без залежності від API окремого провайдера.

Спеціалізовані та вертикальні моделі

Поза межами універсальних моделей екосистема урізноманітнюється вертикальними рішеннями. У медицині: H-optimus-0 від Bioptimus для асистованої діагностики, Pharia-1-LLM від Aleph Alpha німецькою, спеціальні fine-tunes для радіології та онкології. У праві: асистенти Lefebvre Dalloz-Barreau de Paris, застосунки Talan-Mutuelle Générale. У коді: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. У фінансах: внутрішні моделі BNP Paribas, Crédit Agricole, JPMorgan. Рух малих ефективних моделей (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - орієнтований на embedded-розгортання (телефони, авто, IoT) з прийнятною якістю при мінімальних витратах на інференцію.

2025 рік ознаменувався появою AI-агентів як нового парадигмального способу використання LLM. Замість відповіді на окремий запит агент виконує низку дій (виклики інструментів, веб-пошук, запис файлів, виконання коду) для розв'язання комплексної задачі. Gemini 2.0 Flash був представлений у грудні 2024 як модель, що відкриває шлях до цієї нової лінійки продуктів. AI Decision Matrix від AI Builders пропонує порівняльну рамку для IT-керівників, які стикаються з розмаїттям рішень.

Виклики 2026 року і далі

Кілька тенденцій, за якими варто стежити у наступні 18 місяців:

відповідність GPAI згідно з AI Act, що діє з серпня 2025;
економіка інференції, яка стала домінуючою за обсягом порівняно з навчанням, із переходом до архітектур MoE та квантованих рішень (BitNet, vLLM, llm-optimizer);
взаємодія з авторським правом, особливо після відхилення закону Darcos у Франції та поточної судової практики щодо Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
гонка reasoning-моделей, де змагаються OpenAI o3, DeepSeek-R1, Gemini Thinking і Hunyuan-T1;
мультимодальна конвергенція, із нативними моделями, здатними працювати з текстом, зображенням, відео та аудіо в єдиному просторі;
поява агентів і пов'язані питання надійності (успішність на довгих завданнях), безпеки (контроль виконуваних дій) і бізнес-моделі;
європейський суверенітет, що втілюється у Mistral, OpenEuroLLM, LightOn, Aleph Alpha, а також у зусиллях із деіндексації інференції за підтримки OVHcloud і нових NVIDIA Tensor Core GPU.

Еволюція LLM вже не зводиться до гонки параметрів. Переможці комбінуватимуть якість даних, пост-навчання з підкріпленням, контрольовану інфраструктуру інференції, ліцензійну стратегію, узгоджену з цільовим ринком, і регуляторну відповідність. Це вже індустріальна, геополітична та юридична проблема не менше, ніж наукова.

Часті запитання

Що таке LLM (велика мовна модель)?

LLM - це нейронна мережа дуже великого розміру - від кількох мільярдів до кількох сотень мільярдів параметрів - на основі архітектури transformer. Її навчають передбачати наступний токен у тексті на основі сотень мільярдів або навіть трильйонів токенів. З цієї простої задачі виникають складні здібності: діалог, міркування, генерація коду, переклад.

Яка різниця між LLM та foundation models?

Foundation model - це модель IA, яку можна багаторазово використовувати як основу для різних спеціалізованих застосувань через fine-tuning, RAG або prompt engineering. LLM - це тип foundation models, спеціалізований на мові. Але цей термін також стосується мультимодальних моделей (зображення, аудіо, відео), які мають ту ж архітектурну та економічну логіку.

Які LLM є найефективнішими у 2026 році?

За публічними бенчмарками: GPT-4o та o1/o3 (OpenAI), Claude 3.5 Sonnet та Claude 3 Opus (Anthropic), Gemini 2.0 Flash та Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 та DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Жоден не домінує у всіх аспектах; вибір залежить від кейсу (міркування, затримка, вартість, мови, мультимодальність).

Скільки коштує навчання передової LLM?

Для dense моделей з понад 70 мільярдами параметрів бюджети складають від 5 до 100 мільйонів доларів залежно від розміру та ефективності. GPT-4 оцінюється приблизно у 100 млн $, Llama 3.1 405B - близько 50 млн $, DeepSeek-V3 - близько 5 млн $ (рекорд ефективності). Ці цифри охоплюють лише фінальне навчання; якщо врахувати попередні експерименти та пост-навчання, повна вартість у 3-10 разів вища.

Що таке модель Mixture of Experts (MoE)?

Це архітектура, де мережа поділяється на кілька підмереж-експертів, і маршрутизатор вибирає кілька експертів для активації для кожного токена. Це дозволяє збільшити загальну кількість параметрів без пропорційного збільшення вартості інференсу. Mixtral 8x7B, DeepSeek-V3 та GPT-4o (імовірно) використовують цю архітектуру.

Чому DeepSeek спричинив такий резонанс у січні 2025 року?

DeepSeek-V3, а потім DeepSeek-R1 показали, що можна досягти рівня найкращих американських пропрієтарних моделей з бюджетом на навчання приблизно у 30 разів меншим і у open source. Це поставило під сумнів перевагу масивної інфраструктури та спричинило тимчасове падіння акцій NVIDIA, показавши вразливість поточної оцінки екосистеми IA.

Які європейські LLM?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) - лідер у Європі. Aleph Alpha розробляє Pharia-1-LLM німецькою мовою. LightOn пропонує Paradigm для бізнесу. Black Forest Labs випускає FLUX-1 для text-to-image. OpenEuroLLM - це європейський академічний консорціум. Мета проекту - створити суверенну альтернативу американським і китайським моделям.

Open source чи пропрієтарний: який вибір зробити?

Це залежить від кейсу використання. Пропрієтарний (OpenAI, Anthropic, Gemini) дає простоту керованого API і доступ до передових моделей. Open source (Llama, Mistral, DeepSeek) дозволяє хостинг on-premise, суверенітет даних, аудит моделі та уникнення vendor lock-in - за рахунок витрат на інфраструктуру та внутрішню експертизу. Для регульованих сфер (медицина, фінанси, оборона) open source хостинг часто стає стандартом.

Що таке модель міркування?

Модель міркування явно генерує chain-of-thought перед відповіддю, що суттєво підвищує її ефективність у конкурентній математиці, логіці та програмуванні. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 та Gemini Thinking - основні представники. Вартість інференсу зростає (вища затримка), але і якість також.

Які основні ризики, пов'язані з LLM?

Галюцинації (генерація фактично хибного контенту), prompt injection та jailbreak (обхід захисту), упередження (відображення корпусу навчання), маніпуляція думкою (дослідження EPFL 2024), споживання енергії та води, витік приватних даних, індустріальна залежність від постачальників моделей і GPU. AI Act відповідає на частину цих ризиків для моделей із системним ризиком.

Як оцінюють LLM?

Через публічні бенчмарки (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), сліпі людські оцінки (Chatbot Arena), а також внутрішні тести під кейс використання. Відкриті бенчмарки швидко насичуються: модель, що перевищує 90% на MMLU, вже не відрізняється від інших. Оцінка за реальними задачами (написання, генерація коду, довге міркування) залишається необхідною.

Який наступний етап для LLM?

IA-агенти - системи, здатні автономно виконувати складні дії - це головний напрямок 2025-2027 років. Далі індустрія працює над довгостроковою надійністю (alignment, безпека), ефективністю інференсу, нативною мультимодальною конвергенцією, безперервним навчанням та інфраструктурною суверенністю. Питання навчальних даних залишається ключовим: публічні web-корпуси починають насичуватися, відкриваючи шлях до синтетичних даних і видавничих партнерств.

на ту ж тему

Articles récents

3 articles liés à ce sujet

Alibaba представляє інтелектуальні кокпіти, AI-окуляри та стратегічні партнерства на WAIC 2025

На Всесвітній конференції зі штучного інтелекту 2025, Alibaba Cloud представила кілька застосувань своїх моделей мовного AI, зокрема інтелектуальний к...

Ринок штучного інтелекту Комерційний продукт

1 сер 2025 Читати далі →

DeepSeek-R1-0528: китайський стартап продовжує змагатися з американськими гігантами, оновлюючи свою флагманську модель

Китайський стартап DeepSeek оновив свою модель R1, покращивши її продуктивність у міркуванні, логіці, математиці та програмуванні. Це оновлення, яке з...

Інструменти та технології Комерційний продукт

2 чер 2025 Читати далі →

Коли ІІ стає щитом: що LLMs змінюють конкретно в кібербезпеці

Мовні моделі (LLMs) все частіше використовуються в кібербезпеці, дозволяючи швидше виявляти вразливості та атаки. Проте, незважаючи на їх ефективність...

Безпека

15 тра 2025 Читати далі →

Statistiques

Articles totaux 3

Contenu mis à jour 5 днів тому

За категорією

За галуззю