Architektura: od transformera do nowoczesnych modeli
Architektura transformer, od której wywodzą się wszystkie współczesne LLM, opiera się na dwóch kluczowych elementach. Pierwszym jest mechanizm auto-attention, pozwalający modelowi obliczać dla każdej pozycji w tekście ważoną kombinację reprezentacji pozostałych pozycji. Operacja ta jest z natury równolegle przetwarzalna, co tłumaczy, dlaczego transformery wyparły architektury rekurencyjne (RNN, LSTM), które dominowały w NLP do 2017 roku. Drugim elementem jest stackowanie dziesiątek identycznych warstw transformer (zazwyczaj od 32 do 96 w modelach najwyższej klasy), z których każda stopniowo udoskonala reprezentację.
Współczesne LLM występują w kilku wariantach architektonicznych:
- modele dense, w których wszystkie parametry są aktywowane przy każdej inferencji (GPT-4 historyczny, Claude, Llama 3.1 405B);
- modele Mixture of Experts (MoE), gdzie tylko wybrane podsieci-experci są aktywowane w zależności od przetwarzanego tokena, co obniża koszt inferencji przy tej samej liczbie parametrów (Mixtral, DeepSeek-V3, domniemany GPT-4o);
- modele multimodalne natywne, które przyjmują i generują tekst, obrazy, dźwięk oraz wideo w jednolitej przestrzeni reprezentacji (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
- modele reasoning (reasoning models), które przed odpowiedzią generują explicytny chain-of-thought - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - kosztem wyższej latencji, ale z lepszą jakością w zadaniach matematycznych, logicznych i programistycznych.
Najważniejsi gracze w 2026 roku
OpenAI pozostaje postrzeganym liderem rynku dzięki ChatGPT, GPT-4o, GPT-4o mini oraz rodzinie modeli reasoning o1/o3. Firma, wyceniana na kilkaset miliardów dolarów w 2026 roku, finansowana jest głównie przez Microsoft i SoftBank. Jej strategia łączy API (opłaty za token), produkt konsumencki (ChatGPT Plus za 20 $/miesiąc) oraz ofertę dla firm (ChatGPT Enterprise, Azure OpenAI Service). OpenAI rozszerzyło działalność o OAI-SearchBot, własnego crawlera wyszukiwawczego, oraz SearchGPT.
Anthropic, założona w 2021 roku przez byłych pracowników OpenAI, w tym Dario i Danielę Amodei, uczyniła z bezpieczeństwa swój wyróżnik. Rodzina Claude (Haiku, Sonnet, Opus) jest szczególnie ceniona za generowanie tekstów, kodu oraz reasoning na długim kontekście. Anthropic finansowana jest przez Amazon, Google i SoftBank. W maju 2026 Anthropic potwierdził wynajem części mocy Colossus 1 od xAI za ok. 1,25 mld dolarów miesięcznie, co pokazuje koncentrację zasobów obliczeniowych.
Google DeepMind od 2023 roku konsoliduje działalność AI pod marką Gemini. Rodzina Gemini (Nano, Flash, Pro, Ultra, a następnie Gemini 2.0 Flash w grudniu 2024) została zintegrowana z wyszukiwarką (AI Overviews) oraz Workspace. Google korzysta z przewagi strukturalnej dzięki kontroli nad danymi treningowymi (Web, YouTube, Books) i własnej infrastrukturze TPU.
Meta postawiła na weights open wraz z rodziną Llama (Llama 1 w lutym 2023, Llama 2 w lipcu 2023, Llama 3 w kwietniu 2024, Llama 3.1 405B w lipcu 2024). Ta strategia zdemokratyzowała dostęp do foundation models i rozwinęła ekosystem modeli pochodnych (Vicuna, Tulu, fine-tuning sektorowy). Meta odmówiła jednak w lipcu 2025 podpisania europejskiego kodeksu dobrych praktyk GPAI i czasowo wstrzymała premierę Llama 3 multimodal w Europie.
Mistral AI, założona w Paryżu w kwietniu 2023 przez Arthura Menscha, Guillaume'a Lample'a i Timothée Lacroix, została europejskim czempionem. Jej strategia hybrydowa łączy modele otwarte (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) z modelami zamkniętymi (Mistral Large 2, Pixtral Large). Mistral podpisał kodeks dobrych praktyk GPAI i zawarł strategiczne partnerstwa z NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini i SAP.
W Chinach Alibaba (rodzina Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) oraz przede wszystkim DeepSeek dogoniły, a następnie rzuciły wyzwanie amerykańskim laboratoriom. DeepSeek-V3 zadziwił społeczność w styczniu 2025 jakością przy koszcie treningu ~30 razy niższym niż zachodni konkurenci. DeepSeek-R1, wydany zaraz potem i zaktualizowany w czerwcu 2025 (R1-0528), wywołał tymczasowy spadek akcji NVIDIA, podważając przewagę ogromnych infrastruktur.
Inni gracze pełnią role wyspecjalizowane: xAI (Grok, infrastruktura Colossus), Cohere (modele firmowe wielojęzyczne, Aya 23), AI2 (Tülu 3 405B, modele całkowicie open), Aleph Alpha (Pharia-1-LLM po niemiecku), Black Forest Labs (FLUX-1 do text-to-image), LightOn (Paradigm dla firm), Hugging Face (hub modeli, SmolLM2), OpenEuroLLM (europejskie konsorcjum open).
Modele referencyjne w 2026 roku
Tablica czołowych LLM w 2026 roku obejmuje około tuzina rodzin, każda w różnych rozmiarach i wariantach:
- GPT-4o / GPT-4o mini (OpenAI) - multimodal natywny, niska latencja, okno kontekstowe 128k tokenów. GPT-4o mini stał się ekonomicznym standardem dla wdrożeń na dużą skalę.
- o1 / o3 (OpenAI) - modele reasoning z wewnętrznym chain-of-thought, bardzo mocne w matematyce konkursowej (AIME, IMO) i programowaniu (Codeforces).
- Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - okno 200k, świetne w długim piśmiennictwie i czytaniu dokumentów.
- Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - multimodal natywny, integracja z ekosystemem Google.
- Llama 3.1 405B / Llama 3.3 (Meta) - lider open source dense.
- Mistral Large 2 / Pixtral Large (Mistral AI) - europejskie, open weights w wybranych wersjach.
- DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - chiński open source, reasoning, spektakularnie niski koszt treningu.
- Qwen2.5 (Alibaba) - chiński lider open source multilingue, okno 1M tokenów.
- NOVA (Amazon) - własna rodzina foundation models ogłoszona w grudniu 2024.
- Phi-3 / Phi-3.5 (Microsoft) - małe, wydajne modele do zastosowań embedded.
- Hunyuan-T1 (Tencent) - chiński model reasoning konkurujący z czołówką światową.
- Grok 3 (xAI) - dostęp w czasie rzeczywistym do X, ogromna infrastruktura.
Trenowanie i koszty
Trenowanie czołowego LLM wymaga ogromnych zasobów. Publiczne szacunki dla GPT-4 mówią o budżecie rzędu 100 mln dolarów i dziesiątkach tysięcy GPU H100 przez trzy miesiące. Llama 3.1 405B wymagała 16 000 H100 i około 30 mln godzin GPU. Mistral Large 2 i Mixtral, na drugim biegunie europejskim, trenowano przy znacznie niższych budżetach, co pokazuje, że przy starannej pracy na danych można osiągnąć konkurencyjne wyniki przy mniejszym wysiłku.
Scaling laws sformułowane przez OpenAI, a następnie dopracowane przez DeepMind (Chinchilla, 2022), długo wyznaczały dynamikę: jakość modelu rośnie przewidywalnie wraz z iloczynem liczby parametrów i ilości danych treningowych, pod warunkiem zachowania równowagi obu czynników. Ta zależność została podważona pod koniec 2024 roku: wzrost budżetów nie przekłada się już na spektakularne zyski na otwartych benchmarkach, a uwaga przesunęła się na inne aspekty - jakość danych, reasoning post-training, agentów, multimodalność.
Infrastruktura obliczeniowa stała się kluczowym zagadnieniem geopolitycznym. NVIDIA, dzięki niemal monopolowi na GPU H100/H200/B200, przechwytuje większość wartości. Amerykańskie kontrole eksportowe ograniczają sprzedaż do Chin, co zmusiło DeepSeek i Alibaba do optymalizacji treningu pod mniej wydajne układy (H800). xAI zbudowało w 2024 roku centrum danych Colossus w Memphis, integrując 100 000 H100, a następnie 200 000 H100/H200, w mniej niż rok - rekord w branży.
Możliwości i ograniczenia
Współczesne LLM radzą sobie z szerokim wachlarzem zadań: pisanie, streszczanie, tłumaczenie, generowanie kodu, dialog, ekstrakcja informacji, klasyfikacja, przetwarzanie dokumentów strukturalnych i niestrukturalnych. Stały się standardowym komponentem wielu aplikacji - konwersacyjnych wyszukiwarek, asystentów kodowania (Copilot, Cursor), agentów prawnych i medycznych, systemów wsparcia klienta, narzędzi produktywności Office i Workspace.
Ich ograniczenia są również dobrze udokumentowane. LLM halucynują - generują treści wiarygodne, ale nieprawdziwe - szczególnie w niszowych tematach, przy precyzyjnych liczbach i bibliografii. Są podatne na ataki adversarialne (prompt injection, jailbreak), co wykazało badanie EPFL w grudniu 2024 na temat granic LLM wobec ataków adaptacyjnych. Mogą być wykorzystywane do manipulacji opiniami użytkowników (badanie EPFL z kwietnia 2024). Zużywają znaczące ilości energii i wody - temat coraz bardziej monitorowany przez regulatorów i akcjonariuszy. Ich bias odzwierciedla bias korpusów treningowych, głównie anglojęzycznych i północno-zachodnich.
Open source vs modele zamknięte
Podział między otwartymi a zamkniętymi LLM kształtuje debatę od 2023 roku. Zwolennicy modeli open - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - podkreślają suwerenność technologiczną, możliwość niezależnego audytu, rozwój naukowy i odporność przemysłową. Przeciwnicy - Anthropic, OpenAI w pewnych aspektach - wskazują na ryzyko proliferacji szkodliwych zastosowań (bio-terroryzm, dezinformacja na dużą skalę, oszustwa) i niemożność wycofania modelu po publikacji.
AI Act częściowo rozstrzyga tę kwestię, przyznając częściowe zwolnienia modelom, których parametry, architektura i informacje o użyciu są publiczne. Zwolnienia te nie dotyczą modeli o ryzyku systemowym (10²⁵ FLOPS treningu). W 2026 ekosystem open source zdominowany jest przez Llama, Mistral, DeepSeek i Qwen, które pokrywają większość zastosowań firmowych i naukowych bez zależności od API pojedynczego dostawcy.
Modele specjalistyczne i wertykalne
Poza modelami ogólnego przeznaczenia, ekosystem różnicuje się na modele wertykalne. W medycynie: H-optimus-0 od Bioptimus do wspomaganego diagnozowania, Pharia-1-LLM od Aleph Alpha po niemiecku, fine-tunes dedykowane radiologii i onkologii. W prawie: asystenci Lefebvre Dalloz-Barreau de Paris, aplikacje Talan-Mutuelle Générale. W kodowaniu: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. W finansach: modele wewnętrzne BNP Paribas, Crédit Agricole, JPMorgan. Ruch małych, wydajnych modeli (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - celuje w wdrożenia embedded (telefony, samochody, IoT) przy akceptowalnej jakości i bardzo niskim koszcie inferencji.
Rok 2025 przyniósł pojawienie się agentów IA jako nowego paradygmatu wykorzystania LLM. Zamiast odpowiadać na pojedyncze zapytanie, agent realizuje sekwencję działań (wywołania narzędzi, przeszukiwanie Web, zapisywanie plików, uruchamianie kodu) w celu rozwiązania złożonego zadania. Gemini 2.0 Flash zaprezentowano w grudniu 2024 jako model otwierający tę nową kategorię produktów. AI Decision Matrix od AI Builders dostarcza ram do porównawczej oceny dla menedżerów IT w obliczu ogromnej liczby rozwiązań.
Wyzwania na 2026 i kolejne lata
Kilka trendów do obserwacji w najbliższych 18 miesiącach:
- zgodność z GPAI w świetle AI Act, obowiązującego od sierpnia 2025;
- ekonomia inferencji, która zdominowała wolumenowo ekonomię treningu, z przesunięciem na architektury MoE i kwantyzację (BitNet, vLLM, llm-optimizer);
- relacja z prawem autorskim, zwłaszcza po odrzuceniu ustawy Darcos we Francji i trwających sporach prawnych dotyczących Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
- wyścig modeli reasoning, w którym rywalizują OpenAI o3, DeepSeek-R1, Gemini Thinking i Hunyuan-T1;
- konwergencja multimodalna, z modelami natywnymi obsługującymi tekst, obraz, wideo i audio w jednej przestrzeni;
- pojawienie się agentów i powiązane kwestie niezawodności (wskaźnik sukcesu w długich zadaniach), bezpieczeństwa (kontrola wykonywanych działań) oraz modelu biznesowego;
- suwerenność europejska, reprezentowana przez Mistral, OpenEuroLLM, LightOn, Aleph Alpha oraz wysiłki w kierunku uniezależnienia inferencji dzięki OVHcloud i nowym GPU NVIDIA Tensor Core.
Rozwój LLM to już nie tylko wyścig na liczbę parametrów. Zwycięzcy połączą jakość danych, post-training reinforcement, kontrolowaną infrastrukturę inferencyjną, spójną strategię licencyjną i zgodność z regulacjami. To obecnie temat przemysłowy, geopolityczny i prawny, nie tylko naukowy.