Alibaba представляє інтелектуальні кокпіти, AI-окуляри та стратегічні партнерства на WAIC 2025
На Всесвітній конференції зі штучного інтелекту 2025, Alibaba Cloud представила кілька застосувань своїх моделей мовного AI, зокрема інтелектуальний к...
Великі мовні моделі (LLM) продовжують трансформувати ландшафт штучного інтелекту, стаючи важливими інструментами в різних галузях, від кібербезпеки до медицини. Нещодавно DeepSeek представила оновлення своєї моделі R1, DeepSeek-R1-0528, що підсилює її можливості міркування, логіки та програмування. Ця версія, опублікована 28 травня 2025 року, наближається до продуктивності флагманських моделей OpenAI та Google, знижуючи рівень галюцинацій, що є постійною проблемою для LLM. Паралельно, Tencent представила Hunyuan-T1, модель міркування, що використовує інноваційну гібридну архітектуру, щоб конкурувати з лідерами ринку. Ці розробки підкреслюють зростаючу тенденцію до покращення можливостей міркування LLM, ключового елементу в їх здатності інтегруватися в складні та критичні системи.
У сфері кібербезпеки LLM демонструють свій потенціал, полегшуючи виявлення та аналіз загроз. Дослідження Нью-Йоркського університету підкреслює їх здатність використовувати маси текстових даних для передбачення та реагування на атаки, перетворюючи кібербезпеку на більш реактивний та проактивний сектор. Моделі, такі як SecureBERT, спеціалізовані на кібербезпеці, показують обнадійливі результати, хоча їх удосконалення залишається викликом для компаній. Ця еволюція до спеціалізованих LLM відображає тенденцію до диверсифікації застосувань мовних моделей, задовольняючи специфічні потреби та покращуючи їх точність та надійність.
Популярність LLM з відкритим вихідним кодом також продовжує зростати, з ініціативами, такими як Allen Institute for AI, який запустив Tülu 3 405B, потужну модель з відкритим вихідним кодом на базі Llama 3.1. Ця модель відрізняється використанням навчання з підкріпленням з перевіреними винагородами, покращуючи її продуктивність у складних завданнях. Паралельно, Mistral AI запустила Mistral Small 3, модель, оптимізовану для затримки, пропонуючи альтернативу з відкритим вихідним кодом до власних моделей. Ці ініціативи відображають бажання демократизувати доступ до LLM, знижуючи витрати на інференцію, що є критичним питанням для розширення їхнього впровадження, особливо в середовищах з обмеженими ресурсами.
Хоча великі мовні моделі продовжують розвиватися, залишаються виклики, зокрема щодо вартості інференції та впливу на навколишнє середовище. Нещодавно Microsoft представила BitNet.cpp, фреймворк з відкритим вихідним кодом, що оптимізує інференцію LLM, кількісно оцінених до 1 біта, знижуючи їх вуглецевий слід. Ця інновація підкреслює важливість стійкості в еволюції LLM, оскільки розмір і складність моделей продовжують зростати. Крім того, інтеграція LLM в такі галузі, як медична діагностика, ще потребує вдосконалення, дослідження UVA Health показує, що хоча LLM можуть перевершити лікарів у деяких завданнях, їх інтеграція ще не значно покращила загальні діагностичні показники.
Архітектура transformer, від якої походять усі сучасні LLM, базується на двох основних компонентах. Перший - механізм auto-attention, що дозволяє моделі обчислювати для кожної позиції тексту зважену комбінацію представлень інших позицій. Ця операція природно паралелізується, що й пояснює, чому transformers витіснили рекурентні архітектури (RNN, LSTM), які домінували в NLP до 2017 року. Другий компонент - stacking десятків ідентичних шарів transformer (зазвичай від 32 до 96 у передових моделях), кожен з яких додає уточнення до представлення.
Сучасні LLM існують у кількох архітектурних варіантах:
OpenAI залишається сприйнятим лідером ринку завдяки ChatGPT, GPT-4o, GPT-4o mini та сімейству reasoning-моделей o1/o3. Компанія, оцінена у кілька сотень мільярдів доларів у 2026 році, фінансується переважно Microsoft і SoftBank. Її бізнес-стратегія поєднує API (оплата за токен), масовий продукт (ChatGPT Plus за 20 $/місяць) та корпоративні рішення (ChatGPT Enterprise, Azure OpenAI Service). OpenAI розширила свій портфель за рахунок OAI-SearchBot - власного пошукового краулера - та SearchGPT.
Anthropic, заснована у 2021 році колишніми співробітниками OpenAI, зокрема Даріо та Даніелою Амодей, зробила безпеку своїм ключовим напрямом. Сімейство Claude (Haiku, Sonnet, Opus) особливо цінується за написання текстів, коду та reasoning з довгим контекстом. Anthropic фінансується Amazon, Google і SoftBank. У травні 2026 Anthropic підтвердила оренду частини потужностей Colossus 1 від xAI приблизно за 1,25 мільярда доларів на місяць, що ілюструє концентрацію обчислювальних ресурсів.
Google DeepMind з 2023 року консолідує свої AI-активи під брендом Gemini. Сімейство Gemini (Nano, Flash, Pro, Ultra, а потім Gemini 2.0 Flash у грудні 2024) інтегроване у пошуковий рушій (AI Overviews) та пакет Workspace. Google має структурну перевагу завдяки контролю над тренувальними даними (Web, YouTube, Books) і власною інфраструктурою TPU.
Meta зробила ставку на weights open із сімейством Llama (Llama 1 у лютому 2023, Llama 2 у липні 2023, Llama 3 у квітні 2024, Llama 3.1 405B у липні 2024). Така стратегія демократизувала доступ до foundation models і стимулювала екосистему похідних моделей (Vicuna, Tulu, галузеві fine-tunes). Водночас Meta у липні 2025 відмовилась підписати європейський кодекс добрих практик GPAI і тимчасово призупинила реліз Llama 3 multimodal у Європі.
Mistral AI, заснована в Парижі у квітні 2023 Артуром Меншем, Гійомом Ламплем і Тімоте Лакруа, стала європейським чемпіоном. Її гібридна стратегія поєднує відкриті моделі (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) та пропрієтарні продукти (Mistral Large 2, Pixtral Large). Mistral підписала кодекс добрих практик GPAI і уклала стратегічні партнерства з NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini та SAP.
У Китаї Alibaba (сімейство Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) і особливо DeepSeek не лише наздогнали, а й кинули виклик американським лабораторіям. DeepSeek-V3 вразив спільноту у січні 2025 своєю якістю при вартості тренування приблизно у 30 разів меншій, ніж у західних конкурентів. DeepSeek-R1, випущений слідом і оновлений у червні 2025 (R1-0528), спровокував тимчасове падіння акцій NVIDIA, поставивши під сумнів перевагу гігантських інфраструктур.
Інші гравці мають спеціалізовані ролі: xAI (Grok, інфраструктура Colossus), Cohere (корпоративні багатомовні моделі, Aya 23), AI2 (Tülu 3 405B, повністю open моделі), Aleph Alpha (Pharia-1-LLM німецькою), Black Forest Labs (FLUX-1 для text-to-image), LightOn (Paradigm для бізнесу), Hugging Face (хаб моделей, SmolLM2), OpenEuroLLM (європейський open консорціум).
Панорама передових LLM у 2026 включає близько десятка сімейств, кожне з власними розмірами та варіантами:
Навчання передового LLM вимагає значних ресурсів. Для GPT-4 публічні оцінки називають бюджет близько 100 мільйонів доларів і десятки тисяч GPU H100 протягом трьох місяців. Для Llama 3.1 405B знадобилося 16 000 H100 і близько 30 мільйонів GPU-годин. Mistral Large 2 і Mixtral, на іншому полюсі європейського спектру, були навчені зі значно скромнішими бюджетами, що доводить можливість досягати конкурентних результатів при ретельній роботі з даними.
Scaling laws, формалізовані OpenAI і надалі уточнені DeepMind (Chinchilla, 2022), довгий час визначали динаміку: якість моделі передбачувано зростає із добутком числа параметрів і обсягу тренувальних даних за умови балансу між ними. Наприкінці 2024 ця формула була поставлена під сумнів: зростання бюджетів більше не дає вражаючих результатів на відкритих бенчмарках, а фокус змістився на інші аспекти - якість даних, reasoning після навчання, агенти, мультимодальність.
Обчислювальна інфраструктура стала ключовим геополітичним питанням. NVIDIA, фактично монополіст на GPU H100/H200/B200, отримує основну частину доданої вартості. Американські експортні обмеження обмежують продажі до Китаю, що змусило DeepSeek і Alibaba оптимізувати тренування під спрощені чипи (H800). xAI у 2024 побудувала дата-центр Colossus у Мемфісі, інтегрувавши 100 000 H100, а згодом 200 000 H100/H200 менш ніж за рік - промисловий рекорд.
Сучасні LLM опановують широкий спектр завдань: написання текстів, резюмування, переклад, генерація коду, діалог, витяг інформації, класифікація, обробка структурованих і неструктурованих документів. Вони стали стандартними компонентами у багатьох додатках - розмовні пошукові системи, асистенти для коду (Copilot, Cursor), юридичні й медичні агенти, системи підтримки клієнтів, офісні та Workspace-інструменти продуктивності.
Їх обмеження також добре задокументовані. LLM схильні до галюцинацій - генерують правдоподібний, але фактично хибний контент, особливо щодо вузьких тем, точних чисел і бібліографічних посилань. Вони недостатньо стійкі до атак (prompt injection, jailbreak), як показало дослідження EPFL у грудні 2024 щодо адаптивних атак. Вони можуть бути використані для маніпуляції думками користувачів (дослідження EPFL, квітень 2024). Витрачають значні обсяги енергії та води - це питання все більше відстежується регуляторами й акціонерами. Їх упередження відображають тренувальні корпуси, переважно англомовні й північно-західні.
Поділ між відкритими й закритими LLM структурує дискусію з 2023 року. Прихильники відкритих моделей - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - апелюють до технологічного суверенітету, можливості незалежного аудиту, академічного поширення та промислової стійкості. Опоненти - Anthropic, OpenAI у певних аспектах - наголошують на ризиках поширення шкідливих застосувань (біотероризм, масова дезінформація, шахрайство) та неможливості відкликати модель після публікації.
AI Act частково вирішує питання, надаючи часткові виключення моделям, у яких опубліковані параметри, архітектура й інструкції з використання. Ці виключення не поширюються на моделі із системним ризиком (10²⁵ FLOPS тренування). У 2026 екосистему open source домінують Llama, Mistral, DeepSeek і Qwen, які покривають більшість корпоративних і академічних кейсів без залежності від API окремого провайдера.
Поза межами універсальних моделей екосистема урізноманітнюється вертикальними рішеннями. У медицині: H-optimus-0 від Bioptimus для асистованої діагностики, Pharia-1-LLM від Aleph Alpha німецькою, спеціальні fine-tunes для радіології та онкології. У праві: асистенти Lefebvre Dalloz-Barreau de Paris, застосунки Talan-Mutuelle Générale. У коді: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. У фінансах: внутрішні моделі BNP Paribas, Crédit Agricole, JPMorgan. Рух малих ефективних моделей (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - орієнтований на embedded-розгортання (телефони, авто, IoT) з прийнятною якістю при мінімальних витратах на інференцію.
2025 рік ознаменувався появою AI-агентів як нового парадигмального способу використання LLM. Замість відповіді на окремий запит агент виконує низку дій (виклики інструментів, веб-пошук, запис файлів, виконання коду) для розв'язання комплексної задачі. Gemini 2.0 Flash був представлений у грудні 2024 як модель, що відкриває шлях до цієї нової лінійки продуктів. AI Decision Matrix від AI Builders пропонує порівняльну рамку для IT-керівників, які стикаються з розмаїттям рішень.
Кілька тенденцій, за якими варто стежити у наступні 18 місяців:
Еволюція LLM вже не зводиться до гонки параметрів. Переможці комбінуватимуть якість даних, пост-навчання з підкріпленням, контрольовану інфраструктуру інференції, ліцензійну стратегію, узгоджену з цільовим ринком, і регуляторну відповідність. Це вже індустріальна, геополітична та юридична проблема не менше, ніж наукова.
LLM - це нейронна мережа дуже великого розміру - від кількох мільярдів до кількох сотень мільярдів параметрів - на основі архітектури transformer. Її навчають передбачати наступний токен у тексті на основі сотень мільярдів або навіть трильйонів токенів. З цієї простої задачі виникають складні здібності: діалог, міркування, генерація коду, переклад.
Foundation model - це модель IA, яку можна багаторазово використовувати як основу для різних спеціалізованих застосувань через fine-tuning, RAG або prompt engineering. LLM - це тип foundation models, спеціалізований на мові. Але цей термін також стосується мультимодальних моделей (зображення, аудіо, відео), які мають ту ж архітектурну та економічну логіку.
За публічними бенчмарками: GPT-4o та o1/o3 (OpenAI), Claude 3.5 Sonnet та Claude 3 Opus (Anthropic), Gemini 2.0 Flash та Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 та DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Жоден не домінує у всіх аспектах; вибір залежить від кейсу (міркування, затримка, вартість, мови, мультимодальність).
Для dense моделей з понад 70 мільярдами параметрів бюджети складають від 5 до 100 мільйонів доларів залежно від розміру та ефективності. GPT-4 оцінюється приблизно у 100 млн $, Llama 3.1 405B - близько 50 млн $, DeepSeek-V3 - близько 5 млн $ (рекорд ефективності). Ці цифри охоплюють лише фінальне навчання; якщо врахувати попередні експерименти та пост-навчання, повна вартість у 3-10 разів вища.
Це архітектура, де мережа поділяється на кілька підмереж-експертів, і маршрутизатор вибирає кілька експертів для активації для кожного токена. Це дозволяє збільшити загальну кількість параметрів без пропорційного збільшення вартості інференсу. Mixtral 8x7B, DeepSeek-V3 та GPT-4o (імовірно) використовують цю архітектуру.
DeepSeek-V3, а потім DeepSeek-R1 показали, що можна досягти рівня найкращих американських пропрієтарних моделей з бюджетом на навчання приблизно у 30 разів меншим і у open source. Це поставило під сумнів перевагу масивної інфраструктури та спричинило тимчасове падіння акцій NVIDIA, показавши вразливість поточної оцінки екосистеми IA.
Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) - лідер у Європі. Aleph Alpha розробляє Pharia-1-LLM німецькою мовою. LightOn пропонує Paradigm для бізнесу. Black Forest Labs випускає FLUX-1 для text-to-image. OpenEuroLLM - це європейський академічний консорціум. Мета проекту - створити суверенну альтернативу американським і китайським моделям.
Це залежить від кейсу використання. Пропрієтарний (OpenAI, Anthropic, Gemini) дає простоту керованого API і доступ до передових моделей. Open source (Llama, Mistral, DeepSeek) дозволяє хостинг on-premise, суверенітет даних, аудит моделі та уникнення vendor lock-in - за рахунок витрат на інфраструктуру та внутрішню експертизу. Для регульованих сфер (медицина, фінанси, оборона) open source хостинг часто стає стандартом.
Модель міркування явно генерує chain-of-thought перед відповіддю, що суттєво підвищує її ефективність у конкурентній математиці, логіці та програмуванні. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 та Gemini Thinking - основні представники. Вартість інференсу зростає (вища затримка), але і якість також.
Галюцинації (генерація фактично хибного контенту), prompt injection та jailbreak (обхід захисту), упередження (відображення корпусу навчання), маніпуляція думкою (дослідження EPFL 2024), споживання енергії та води, витік приватних даних, індустріальна залежність від постачальників моделей і GPU. AI Act відповідає на частину цих ризиків для моделей із системним ризиком.
Через публічні бенчмарки (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), сліпі людські оцінки (Chatbot Arena), а також внутрішні тести під кейс використання. Відкриті бенчмарки швидко насичуються: модель, що перевищує 90% на MMLU, вже не відрізняється від інших. Оцінка за реальними задачами (написання, генерація коду, довге міркування) залишається необхідною.
IA-агенти - системи, здатні автономно виконувати складні дії - це головний напрямок 2025-2027 років. Далі індустрія працює над довгостроковою надійністю (alignment, безпека), ефективністю інференсу, нативною мультимодальною конвергенцією, безперервним навчанням та інфраструктурною суверенністю. Питання навчальних даних залишається ключовим: публічні web-корпуси починають насичуватися, відкриваючи шлях до синтетичних даних і видавничих партнерств.
3 articles liés à ce sujet
На Всесвітній конференції зі штучного інтелекту 2025, Alibaba Cloud представила кілька застосувань своїх моделей мовного AI, зокрема інтелектуальний к...
Китайський стартап DeepSeek оновив свою модель R1, покращивши її продуктивність у міркуванні, логіці, математиці та програмуванні. Це оновлення, яке з...
Мовні моделі (LLMs) все частіше використовуються в кібербезпеці, дозволяючи швидше виявляти вразливості та атаки. Проте, незважаючи на їх ефективність...