Architectuur: van transformer tot moderne modellen
De transformer-architectuur, waaruit alle moderne LLM voortkomen, steunt op twee fundamentele bouwstenen. De eerste is het self-attention-mechanisme, waarmee het model voor elke positie in de tekst een gewogen combinatie kan berekenen van de representaties van andere posities. Deze operatie is intrinsiek paralleliseerbaar, wat verklaart waarom transformers de recurrente architecturen (RNN, LSTM) hebben verdrongen die tot 2017 het NLP-domein domineerden. De tweede bouwsteen is het stapelen van tientallen identieke transformer-lagen (typisch tussen de 32 en 96 bij de meest geavanceerde modellen), waarbij elke laag de representatie verder verfijnt.
De hedendaagse LLM zijn beschikbaar in verschillende architecturale varianten:
- Dense modellen, waarbij alle parameters bij elke inferentie worden geactiveerd (historische GPT-4, Claude, Llama 3.1 405B);
- Mixture of Experts (MoE)-modellen, waarbij slechts enkele expert-subnetwerken worden geactiveerd afhankelijk van de verwerkte token, wat de inferentiekosten verlaagt bij een gelijk aantal parameters (Mixtral, DeepSeek-V3, vermoedelijk GPT-4o);
- Natuurlijk multimodale modellen, die tekst, beeld, geluid en video verwerken en genereren binnen een verenigde representatieruimte (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
- Reasoning models, die expliciet een chain-of-thought genereren alvorens te antwoorden - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - met als keerzijde een hogere latentie, maar superieure prestaties op wiskunde-, logica- en programmeertaken.
De belangrijkste spelers in 2026
OpenAI blijft de waargenomen marktleider met ChatGPT, GPT-4o, GPT-4o mini en de familie reasoning-modellen o1/o3. Het bedrijf, in 2026 gewaardeerd op enkele honderden miljarden dollars, wordt voornamelijk gefinancierd door Microsoft en SoftBank. De commerciële strategie combineert API (betaling per token), consumentenproduct (ChatGPT Plus voor 20 $/maand) en zakelijke oplossingen (ChatGPT Enterprise, Azure OpenAI Service). OpenAI heeft zijn portfolio uitgebreid met OAI-SearchBot, zijn zoekcrawler, en SearchGPT.
Anthropic, opgericht in 2021 door voormalige OpenAI-medewerkers waaronder Dario en Daniela Amodei, heeft veiligheid als onderscheidend kenmerk gekozen. De Claude-familie (Haiku, Sonnet, Opus) is vooral geliefd voor schrijven, coderen en lang-context redeneervermogen. Anthropic wordt gefinancierd door Amazon, Google en SoftBank. In mei 2026 bevestigde Anthropic dat het een deel van de capaciteit van Colossus 1 van xAI huurt voor ongeveer 1,25 miljard dollar per maand, wat de concentratie van rekenkracht illustreert.
Google DeepMind bundelt sinds 2023 zijn AI-activiteiten onder het merk Gemini. De Gemini-familie (Nano, Flash, Pro, Ultra, gevolgd door Gemini 2.0 Flash in december 2024) is geïntegreerd in de zoekmachine (AI Overviews) en in de Workspace-suite. Google profiteert van een structureel voordeel dankzij de controle over trainingsdata (Web, YouTube, Books) en zijn TPU-infrastructuur.
Meta heeft gekozen voor weights open met de Llama-familie (Llama 1 in februari 2023, Llama 2 in juli 2023, Llama 3 in april 2024, Llama 3.1 405B in juli 2024). Deze strategie heeft de toegang tot foundation models gedemocratiseerd en een ecosysteem van afgeleide modellen gevoed (Vicuna, Tulu, sectorale fine-tunes). Meta weigerde echter in juli 2025 het Europese GPAI-code of conduct te ondertekenen en stelde de release van Llama 3 multimodaal in Europa tijdelijk uit.
Mistral AI, opgericht in Parijs in april 2023 door Arthur Mensch, Guillaume Lample en Timothée Lacroix, heeft zich gepositioneerd als de Europese kampioen. De hybride strategie combineert open modellen (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) en proprietary modellen (Mistral Large 2, Pixtral Large). Mistral heeft het GPAI-code of conduct ondertekend en strategische partnerschappen gesloten met NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini en SAP.
In China hebben Alibaba (Qwen-familie), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) en vooral DeepSeek de Amerikaanse labs ingehaald en uitgedaagd. DeepSeek-V3 verbaasde de gemeenschap in januari 2025 met zijn kwaliteit tegen trainingskosten die ongeveer 30 keer lager liggen dan die van westerse concurrenten. DeepSeek-R1, kort daarna gelanceerd en in juni 2025 geüpdatet (R1-0528), veroorzaakte een tijdelijke beursdaling van NVIDIA door de vraag naar enorme infrastructuren ter discussie te stellen.
Andere spelers vervullen gespecialiseerde rollen: xAI (Grok, Colossus-infrastructuur), Cohere (meertalige zakelijke modellen, Aya 23), AI2 (Tülu 3 405B, volledig open modellen), Aleph Alpha (Pharia-1-LLM in het Duits), Black Forest Labs (FLUX-1 voor text-to-image), LightOn (Paradigm voor bedrijven), Hugging Face (modelhub, SmolLM2), OpenEuroLLM (Europees open consortium).
Referentiemodellen in 2026
Het landschap van toonaangevende LLM in 2026 bestaat uit ongeveer een dozijn families, elk met hun eigen groottes en varianten:
- GPT-4o / GPT-4o mini (OpenAI) - native multimodaal, lage latentie, context window van 128k tokens. GPT-4o mini is de economische standaard geworden voor grootschalige uitrol.
- o1 / o3 (OpenAI) - reasoning-modellen met interne chain-of-thought, uitmuntend in competitieve wiskunde (AIME, IMO) en programmeren (Codeforces).
- Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - 200k context, uitstekend in lang schrijven en documentanalyse.
- Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - native multimodaal, integratie met het Google-ecosysteem.
- Llama 3.1 405B / Llama 3.3 (Meta) - toonaangevende open source dense modellen.
- Mistral Large 2 / Pixtral Large (Mistral AI) - Europees, open weights voor bepaalde versies.
- DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - Chinese open source, reasoning, spectaculair lage trainingskosten.
- Qwen2.5 (Alibaba) - Chinese open source meertalig leider, context window van 1M tokens.
- NOVA (Amazon) - eigen foundation-familie aangekondigd in december 2024.
- Phi-3 / Phi-3.5 (Microsoft) - compacte, efficiënte modellen voor embedded toepassingen.
- Hunyuan-T1 (Tencent) - Chinese reasoning model dat meedoet aan de internationale top.
- Grok 3 (xAI) - real-time toegang tot X, massale infrastructuur.
Training en kosten
Het trainen van een toonaangevende LLM vereist enorme middelen. Voor GPT-4 wordt geschat dat het budget rond de 100 miljoen dollar lag, met enkele tienduizenden H100 GPU's gedurende drie maanden. Llama 3.1 405B vereiste 16.000 H100 en ongeveer 30 miljoen GPU-uren. Mistral Large 2 en Mixtral, aan de andere kant van het Europese spectrum, werden getraind met aanzienlijk bescheidener budgetten en tonen aan dat competitieve prestaties mogelijk zijn met zorgvuldig databeheer.
De scaling laws die eerst door OpenAI en later verfijnd door DeepMind (Chinchilla, 2022) zijn geformaliseerd, bepaalden lange tijd het speelveld: de kwaliteit van een model stijgt voorspelbaar met het product van het aantal parameters en de hoeveelheid trainingsdata, mits de balans klopt. Eind 2024 werd deze formule ter discussie gesteld: stijgende budgetten leveren niet langer spectaculaire winst op bij open benchmarks, en de focus is verschoven naar andere factoren - datakwaliteit, post-training reasoning, agents, multimodaliteit.
De rekeninfrastructuur is een geopolitiek strijdpunt geworden. NVIDIA, met zijn vrijwel exclusieve positie op H100/H200/B200 GPU's, vangt het grootste deel van de waarde. Amerikaanse exportcontroles beperken de verkoop naar China, waardoor DeepSeek en Alibaba hun training hebben geoptimaliseerd voor mindere chips (H800). xAI bouwde in 2024 het Colossus-datacenter in Memphis, met 100.000 H100 en later 200.000 H100/H200, in minder dan een jaar - een industrieel record.
Capaciteiten en beperkingen
Moderne LLM beheersen een breed scala aan taken: schrijven, samenvatten, vertalen, code genereren, dialogeren, informatie-extractie, classificatie, verwerking van gestructureerde en ongestructureerde documenten. Ze zijn standaardonderdelen geworden van talloze toepassingen - conversatiezoekmachines, code-assistenten (Copilot, Cursor), juridische en medische agents, klantenservicesystemen, Office- en Workspace-productiviteitstools.
Hun beperkingen zijn ook goed gedocumenteerd. LLM hallucineren - ze genereren plausibele maar feitelijk onjuiste inhoud - vooral bij nicheonderwerpen, exacte cijfers en bibliografische referenties. Ze zijn kwetsbaar voor adversariële aanvallen (prompt injection, jailbreak), zoals aangetoond door het EPFL-onderzoek van december 2024 over de grenzen van LLM bij adaptieve aanvallen. Ze kunnen worden gemanipuleerd om gebruikersmeningen te beïnvloeden (EPFL-studie april 2024). Hun energie- en waterverbruik is aanzienlijk - een punt van groeiende zorg voor toezichthouders en aandeelhouders. Hun bias weerspiegelt die van de trainingscorpora, vooral Engelstalig en Noordwesters.
Open source vs. proprietary
De tegenstelling tussen open en gesloten LLM bepaalt het debat sinds 2023. Voorstanders van open modellen - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - benadrukken technologische soevereiniteit, de mogelijkheid tot onafhankelijke audit, academische verspreiding en industriële veerkracht. Tegenstanders - Anthropic, OpenAI op bepaalde vlakken - wijzen op het risico van malafide toepassingen (bioterrorisme, grootschalige desinformatie, fraude) en het onvermogen om een model terug te trekken zodra het is gepubliceerd.
De AI Act biedt gedeeltelijk een antwoord door gedeeltelijke vrijstellingen te verlenen aan modellen waarvan de parameters, architectuur en gebruiksinformatie openbaar zijn gemaakt. Deze vrijstellingen gelden niet voor modellen met systemisch risico (10²⁵ FLOPS training). In 2026 wordt het open source-ecosysteem gedomineerd door Llama, Mistral, DeepSeek en Qwen, die het merendeel van zakelijke en academische use cases afdekken zonder afhankelijk te zijn van de API van een enkele aanbieder.
Gespecialiseerde en verticale modellen
Buiten de generalistische modellen groeit het ecosysteem van verticale modellen. In de zorg: H-optimus-0 van Bioptimus voor medische diagnose, Pharia-1-LLM van Aleph Alpha in het Duits, specifieke fine-tunes voor radiologie en oncologie. In het recht: Lefebvre Dalloz-Barreau de Paris-assistenten, Talan-Mutuelle Générale-applicaties. In code: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. In de financiële sector: interne modellen van BNP Paribas, Crédit Agricole, JPMorgan. De beweging van kleine efficiënte modellen (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - richt zich op embedded toepassingen (telefoons, auto's, IoT) met aanvaardbare kwaliteit tegen zeer lage inferentiekosten.
In 2025 zijn AI agents opgekomen als nieuw paradigma voor LLM-gebruik. In plaats van een geïsoleerde vraag te beantwoorden, voert de agent een reeks acties uit (tool calls, webconsultatie, bestandscreatie, code-uitvoering) om een complexe taak op te lossen. Gemini 2.0 Flash werd in december 2024 gepresenteerd als het model dat deze nieuwe productfamilie inluidt. AI Decision Matrix van AI Builders biedt een vergelijkingskader voor IT-managers die geconfronteerd worden met een overvloed aan oplossingen.
Uitdagingen in 2026 en daarna
Enkele trends om de komende 18 maanden te volgen:
- de GPAI-conformiteit in het licht van de AI Act, sinds augustus 2025 van kracht;
- de inferentie-economie, die qua volume de trainingseconomie heeft ingehaald, met een verschuiving naar MoE-architecturen en quantisatie (BitNet, vLLM, llm-optimizer);
- de verhouding tot het auteursrecht, vooral na het afwijzen van de Darcos-wet in Frankrijk en lopende jurisprudentie over Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
- de race naar reasoning-modellen, met concurrentie tussen OpenAI o3, DeepSeek-R1, Gemini Thinking en Hunyuan-T1;
- de multimodale convergentie, met native modellen die tekst, beeld, video en audio in één ruimte verwerken;
- de opkomst van agents en de bijbehorende vraagstukken rond betrouwbaarheid (slagingspercentages bij langdurige taken), veiligheid (controle over uitgevoerde acties) en businessmodel;
- de Europese soevereiniteit, belichaamd door Mistral, OpenEuroLLM, LightOn, Aleph Alpha, en de inspanning om inferentieberekeningen te desindexeren met OVHcloud en de nieuwe NVIDIA Tensor Core GPU's.
De evolutie van LLM draait niet langer alleen om het aantal parameters. De winnaars zullen datakwaliteit, post-training reinforcement, beheersing van inferentie-infrastructuur, een consistente licentiestrategie voor hun doelgroep en naleving van regelgeving combineren. Het is nu net zozeer een industrieel, geopolitiek en juridisch vraagstuk als een wetenschappelijk thema.