Architektur: Vom Transformer zu modernen Modellen
Die transformer-Architektur, von der alle modernen LLMs abstammen, basiert auf zwei grundlegenden Bausteinen. Der erste ist der Mechanismus der Self-Attention, der es dem Modell ermöglicht, für jede Position im Text eine gewichtete Kombination der Repräsentationen der anderen Positionen zu berechnen. Dieser Vorgang ist von Natur aus parallelisierbar, was erklärt, warum transformer die zuvor dominierenden rekurrenten Architekturen (RNN, LSTM) im NLP-Bereich seit 2017 abgelöst haben. Der zweite Baustein ist das Stapeln von Dutzenden identischer transformer-Schichten (typischerweise zwischen 32 und 96 bei Spitzenmodellen), wobei jede Schicht die Repräsentation weiter verfeinert.
Moderne LLMs existieren in mehreren architektonischen Varianten:
- Dense-Modelle, bei denen alle Parameter bei jeder Inferenz aktiviert werden (historisches GPT-4, Claude, Llama 3.1 405B);
- Mixture of Experts (MoE)-Modelle, bei denen je nach verarbeitetem Token nur einige Experten-Subnetze aktiviert werden, was die Inferenzkosten bei gleicher Parameteranzahl reduziert (Mixtral, DeepSeek-V3, mutmaßlich GPT-4o);
- Nativ multimodale Modelle, die Text, Bilder, Audio und Video in einem einheitlichen Repräsentationsraum verarbeiten und erzeugen (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
- Reasoning models, die vor der Antwort eine explizite chain-of-thought erzeugen - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - mit erhöhter Latenz, aber überlegener Qualität bei Aufgaben aus Mathematik, Logik und Programmierung.
Die wichtigsten Akteure 2026
OpenAI bleibt mit ChatGPT, GPT-4o, GPT-4o mini und der Familie der Reasoning-Modelle o1/o3 der wahrgenommene Marktführer. Das Unternehmen, das 2026 auf mehrere hundert Milliarden Dollar bewertet wird, wird hauptsächlich von Microsoft und SoftBank finanziert. Die Geschäftsstrategie kombiniert API (Bezahlung pro Token), Endkundenprodukt (ChatGPT Plus für 20 $/Monat) und Unternehmenslösungen (ChatGPT Enterprise, Azure OpenAI Service). OpenAI hat sein Portfolio mit OAI-SearchBot, dem eigenen Such-Crawler, und SearchGPT erweitert.
Anthropic, 2021 von ehemaligen OpenAI-Mitarbeitern wie Dario und Daniela Amodei gegründet, setzt auf Sicherheit als Alleinstellungsmerkmal. Die Claude-Familie (Haiku, Sonnet, Opus) ist besonders beliebt für Textgenerierung, Programmieraufgaben und langes Reasoning. Anthropic wird von Amazon, Google und der SoftBank finanziert. Im Mai 2026 bestätigte Anthropic, einen Teil der Colossus 1-Kapazität von xAI für etwa 1,25 Milliarden Dollar pro Monat zu mieten, was die Konzentration von Rechenressourcen illustriert.
Google DeepMind bündelt seit 2023 die AI-Aktivitäten unter der Marke Gemini. Die Gemini-Familie (Nano, Flash, Pro, Ultra, später Gemini 2.0 Flash im Dezember 2024) ist in die Suchmaschine (AI Overviews) und die Workspace-Suite integriert. Google profitiert von einem strukturellen Vorteil durch die Kontrolle über Trainingsdaten (Web, YouTube, Books) und die eigene TPU-Infrastruktur.
Meta setzte auf weights open mit der Llama-Familie (Llama 1 im Februar 2023, Llama 2 im Juli 2023, Llama 3 im April 2024, Llama 3.1 405B im Juli 2024). Diese Strategie hat den Zugang zu foundation models demokratisiert und ein Ökosystem abgeleiteter Modelle (Vicuna, Tulu, sektorale fine-tunes) gefördert. Im Juli 2025 verweigerte Meta jedoch die Unterzeichnung des europäischen GPAI-Verhaltenskodex und verschob vorübergehend die Veröffentlichung von Llama 3 multimodal in Europa.
Mistral AI, im April 2023 in Paris von Arthur Mensch, Guillaume Lample und Timothée Lacroix gegründet, hat sich als europäischer Champion etabliert. Die hybride Strategie kombiniert offene Modelle (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) und proprietäre Modelle (Mistral Large 2, Pixtral Large). Mistral hat den GPAI-Verhaltenskodex unterzeichnet und strategische Partnerschaften mit NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini und SAP geschlossen.
In China haben Alibaba (Qwen-Familie), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) und vor allem DeepSeek die amerikanischen Labore eingeholt und herausgefordert. DeepSeek-V3 beeindruckte die Community im Januar 2025 durch seine Qualität bei etwa 30-fach geringeren Trainingskosten im Vergleich zu westlichen Konkurrenten. DeepSeek-R1, kurz darauf veröffentlicht und im Juni 2025 (R1-0528) aktualisiert, führte zu einem temporären Kurseinbruch bei NVIDIA, da die Dominanz riesiger Infrastrukturen in Frage gestellt wurde.
Weitere Akteure besetzen Spezialrollen: xAI (Grok, Colossus-Infrastruktur), Cohere (mehrsprachige Unternehmensmodelle, Aya 23), AI2 (Tülu 3 405B, vollständig open models), Aleph Alpha (Pharia-1-LLM für Deutsch), Black Forest Labs (FLUX-1 für text-to-image), LightOn (Paradigm für Unternehmen), Hugging Face (Model Hub, SmolLM2), OpenEuroLLM (europäisches open-Konsortium).
Referenzmodelle 2026
Die LLM-Landschaft 2026 umfasst rund ein Dutzend Familien, jeweils mit unterschiedlichen Größen und Varianten:
- GPT-4o / GPT-4o mini (OpenAI) - nativ multimodal, geringe Latenz, 128k Token Kontextfenster. GPT-4o mini ist zum wirtschaftlichen Standard für große Volumina geworden.
- o1 / o3 (OpenAI) - Reasoning-Modelle mit interner chain-of-thought, führend bei Wettbewerbs-Mathematik (AIME, IMO) und Programmierung (Codeforces).
- Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - 200k Kontextfenster, exzellent für lange Texte und Dokumentenverständnis.
- Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - nativ multimodal, Integration ins Google-Ökosystem.
- Llama 3.1 405B / Llama 3.3 (Meta) - führendes open source dense-Modell.
- Mistral Large 2 / Pixtral Large (Mistral AI) - europäisch, open weights bei bestimmten Versionen.
- DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - chinesisches open source, Reasoning, spektakulär niedrige Trainingskosten.
- Qwen2.5 (Alibaba) - führendes chinesisches open source Multilingual-Modell, 1M Token Kontextfenster.
- NOVA (Amazon) - eigene foundation-Familie, angekündigt im Dezember 2024.
- Phi-3 / Phi-3.5 (Microsoft) - kompakte, effiziente Modelle für Embedded-Anwendungen.
- Hunyuan-T1 (Tencent) - chinesisches Reasoning-Modell auf State-of-the-Art-Niveau.
- Grok 3 (xAI) - Echtzeitzugang zu X, massive Infrastruktur.
Training und Kosten
Das Training eines Spitzen-LLM erfordert enorme Ressourcen. Für GPT-4 schätzen öffentliche Quellen das Budget auf etwa 100 Millionen Dollar und mehrere zehntausend H100-GPUs über drei Monate. Llama 3.1 405B benötigte 16.000 H100 und rund 30 Millionen GPU-Stunden. Mistral Large 2 und Mixtral, am anderen Ende des europäischen Spektrums, wurden mit deutlich bescheideneren Budgets trainiert und zeigen, dass mit sorgfältiger Datenarbeit auch mit weniger Aufwand konkurrenzfähige Leistungen erreichbar sind.
Die von OpenAI formalisierten und später von DeepMind (Chinchilla, 2022) verfeinerten scaling laws bestimmten lange die Entwicklung: Die Modellqualität steigt vorhersehbar mit dem Produkt aus Parameterzahl und Trainingsdatenmenge, sofern beide ausgewogen sind. Diese Gleichung wurde Ende 2024 in Frage gestellt: Steigende Budgets führen nicht mehr zu spektakulären Verbesserungen auf offenen Benchmarks, und der Fokus verlagerte sich auf andere Dimensionen - Datenqualität, post-training Reasoning, Agents, Multimodalität.
Die Recheninfrastruktur ist zu einer geopolitischen Schlüsselressource geworden. NVIDIA, mit seiner Quasi-Monopolstellung bei H100/H200/B200-GPUs, schöpft den Großteil des Werts ab. US-Exportkontrollen schränken die Verkäufe nach China ein, was DeepSeek und Alibaba dazu zwang, ihre Trainings auf leistungsschwächere Chips (H800) zu optimieren. xAI errichtete 2024 das Colossus-Rechenzentrum in Memphis mit zunächst 100.000, später 200.000 H100/H200 in weniger als einem Jahr - ein industrieller Rekord.
Fähigkeiten und Grenzen
Moderne LLMs beherrschen ein breites Spektrum an Aufgaben: Textgenerierung, Zusammenfassung, Übersetzung, Codegenerierung, Dialog, Informationsextraktion, Klassifikation sowie die Verarbeitung strukturierter und unstrukturierter Dokumente. Sie sind heute Standardkomponenten in zahlreichen Anwendungen - konversationelle Suchmaschinen, Coding-Assistenten (Copilot, Cursor), juristische und medizinische Agents, Kundensupportsysteme, Office- und Workspace-Produktivitätstools.
Ihre Grenzen sind ebenfalls gut dokumentiert. LLMs halluzinieren - sie erzeugen plausiblen, aber faktisch falschen Inhalt - insbesondere bei Nischenthemen, präzisen Zahlen und bibliografischen Referenzen. Sie sind anfällig für adversariale Angriffe (prompt injection, jailbreak), wie die Studie der EPFL im Dezember 2024 zu den Grenzen von LLMs gegenüber adaptiven Angriffen zeigte. Sie können manipuliert werden, um die Meinungen von Nutzern zu beeinflussen (EPFL-Studie April 2024). Ihr Energie- und Wasserverbrauch ist signifikant - ein zunehmend überwachtes Thema für Regulierungsbehörden und Aktionäre. Ihre Verzerrungen spiegeln die Trainingskorpora wider, die überwiegend anglophon und nordwestlich geprägt sind.
Open Source vs Proprietär
Die Kluft zwischen offenen und geschlossenen LLMs prägt die Debatte seit 2023. Die Befürworter offener Modelle - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - argumentieren mit technologischer Souveränität, der Möglichkeit unabhängiger Audits, wissenschaftlicher Verbreitung und industrieller Resilienz. Die Gegner - Anthropic, OpenAI in Teilbereichen - verweisen auf die Risiken böswilliger Nutzung (Bioterrorismus, Desinformation im großen Stil, Betrug) und die Unmöglichkeit, ein Modell nach Veröffentlichung wieder zurückzuziehen.
Der AI Act trifft eine teilweise Entscheidung, indem er Modellen, deren Parameter, Architektur und Nutzungsinformationen veröffentlicht sind, Teilausnahmen gewährt. Diese Ausnahmen gelten nicht für systemische Risikomodelle (10²⁵ FLOPS Training). 2026 dominieren Llama, Mistral, DeepSeek und Qwen das open source-Ökosystem und decken die meisten Unternehmens- und Wissenschaftsanwendungen ab, ohne von einer einzigen API abhängig zu sein.
Spezialisierte und vertikale Modelle
Über die Generalisten hinaus differenziert sich das Ökosystem in vertikale Modelle aus. Im Medizinbereich: H-optimus-0 von Bioptimus für die medizinische Diagnostik, Pharia-1-LLM von Aleph Alpha für Deutsch, spezielle fine-tunes für Radiologie und Onkologie. Im Rechtsbereich: Lefebvre Dalloz-Barreau de Paris-Assistenten, Talan-Mutuelle Générale-Anwendungen. Im Coding: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. Im Finanzbereich: interne Modelle von BNP Paribas, Crédit Agricole, JPMorgan. Die Bewegung der effizienten kleinen Modelle (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - zielt auf Embedded-Einsätze (Handys, Autos, IoT) mit akzeptabler Qualität bei sehr niedrigen Inferenzkosten.
2025 markierte den Aufstieg der AI Agents als neues Nutzungsparadigma für LLMs. Anstatt nur auf einzelne Anfragen zu antworten, verkettet der Agent Aktionen (Tool-Aufrufe, Webabfragen, Dateischreiben, Codeausführung), um komplexe Aufgaben zu lösen. Gemini 2.0 Flash wurde im Dezember 2024 als Modell vorgestellt, das diesen neuen Produkttyp ermöglicht. AI Decision Matrix von AI Builders bietet einen Bewertungsrahmen für IT-Verantwortliche angesichts der Vielzahl an Lösungen.
Herausforderungen 2026 und darüber hinaus
Mehrere Entwicklungen sind in den kommenden 18 Monaten zu beobachten:
- die GPAI-Konformität im Rahmen des AI Act, der seit August 2025 gilt;
- die Inferenzökonomie, die das Trainingsökonomie-Volumen überholt hat, mit Fokus auf MoE-Architekturen und Quantisierung (BitNet, vLLM, llm-optimizer);
- die Verknüpfung mit dem Urheberrecht, insbesondere nach dem Scheitern des Darcos-Gesetzes in Frankreich und laufender Rechtsprechung zu Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
- das Rennen um Reasoning-Modelle, bei dem OpenAI o3, DeepSeek-R1, Gemini Thinking und Hunyuan-T1 konkurrieren;
- die multimodale Konvergenz, mit nativen Modellen, die Text, Bild, Video und Audio in einem einheitlichen Raum verarbeiten;
- die Emergenz von Agents und die damit verbundenen Fragen der Zuverlässigkeit (Erfolgsraten bei langen Aufgaben), Sicherheit (Kontrolle über durchgeführte Aktionen) und Geschäftsmodelle;
- die europäische Souveränität, verkörpert durch Mistral, OpenEuroLLM, LightOn, Aleph Alpha und das Bemühen um Entkopplung der Inferenzberechnung mit OVHcloud und den neuen NVIDIA Tensor Core GPUs.
Die Entwicklung der LLMs ist längst mehr als ein Wettrennen um Parameterzahlen. Die Gewinner werden Datenqualität, post-training Reinforcement, kontrollierte Inferenzinfrastruktur, eine zum Zielmarkt passende Lizenzstrategie und regulatorische Compliance vereinen. Es ist heute ebenso ein industrielles, geopolitisches und juristisches Thema wie ein wissenschaftliches.