LLM : große Sprachmodelle und foundation models

Tech family

Große Sprachmodelle (auf Englisch Large Language Models, oder LLM) sind neuronale Netzwerke, die auf riesigen Textkorpora trainiert werden, um die wahrscheinlichste Fortsetzung einer Wortsequenz vorherzusagen. Seit 2022 bilden sie den Hauptantrieb der generativen IA und sind Schauplatz eines beispiellosen industriellen Wettbewerbs zwischen OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek und etwa zwanzig weiteren Akteuren. Diese Seite fasst ihre Architektur, die wichtigsten Akteure, die Referenzmodelle im Jahr 2026 sowie die damit verbundenen Kontroversen zusammen.

📰 Actualités récentes

Aktuelle Nachrichten

Die großen Sprachmodelle (LLM) verändern weiterhin die Landschaft der künstlichen Intelligenz und etablieren sich als unverzichtbare Werkzeuge in verschiedenen Bereichen, von der Cybersicherheit bis zur Medizin. Kürzlich hat DeepSeek ein Update seines Modells R1, das DeepSeek-R1-0528, vorgestellt, das seine Fähigkeiten im Bereich Logik, Programmierung und Argumentation stärkt. Diese Version, veröffentlicht am 28. Mai 2025, nähert sich den Leistungen der Vorzeigemodelle von OpenAI und Google an und reduziert gleichzeitig die Halluzinationsrate, ein häufiges Problem bei LLMs. Parallel dazu hat Tencent Hunyuan-T1 eingeführt, ein Argumentationsmodell, das eine innovative hybride Architektur verwendet, um mit den Marktführern zu konkurrieren. Diese Entwicklungen unterstreichen einen wachsenden Trend zur Verbesserung der Argumentationsfähigkeiten von LLMs, ein Schlüsselfaktor für ihre Integration in komplexe und kritische Systeme.

Im Bereich der Cybersicherheit zeigen die LLMs ihr Potenzial, indem sie die Erkennung und Analyse von Bedrohungen erleichtern. Eine Studie der New York University hebt ihre Fähigkeit hervor, große Mengen an Textdaten zu nutzen, um Angriffe vorherzusehen und darauf zu reagieren, und verwandelt die Cybersicherheit in einen reaktionsfähigeren und proaktiveren Sektor. Modelle wie SecureBERT, die auf Cybersicherheit spezialisiert sind, zeigen vielversprechende Ergebnisse, obwohl ihre Verfeinerung für Unternehmen eine Herausforderung bleibt. Diese Entwicklung hin zu spezialisierten LLMs spiegelt einen Trend zur Diversifizierung der Anwendungsbereiche von Sprachmodellen wider, die spezifische Bedürfnisse erfüllen und gleichzeitig ihre Genauigkeit und Zuverlässigkeit verbessern.

Das Interesse an Open-Source-LLMs hält ebenfalls an, mit Initiativen wie denen des Allen Institute for AI, das Tülu 3 405B, ein leistungsstarkes Open-Source-Modell basierend auf Llama 3.1, gestartet hat. Dieses Modell zeichnet sich durch den Einsatz von verstärkendem Lernen mit überprüfbaren Belohnungen aus und verbessert seine Leistung bei komplexen Aufgaben. Parallel dazu hat Mistral AI Mistral Small 3 eingeführt, ein Modell, das für Latenzzeiten optimiert ist und eine Open-Source-Alternative zu proprietären Modellen bietet. Diese Initiativen spiegeln den Wunsch wider, den Zugang zu LLMs zu demokratisieren und gleichzeitig die Inferenzkosten zu senken, eine entscheidende Herausforderung, um ihre Verbreitung zu erweitern, insbesondere in ressourcenbeschränkten Umgebungen.

Während sich die großen Sprachmodelle weiterentwickeln, bleiben Herausforderungen bestehen, insbesondere in Bezug auf Inferenzkosten und Umweltauswirkungen. Microsoft hat kürzlich BitNet.cpp vorgestellt, ein Open-Source-Framework, das die Inferenz von auf 1 Bit quantifizierten LLMs optimiert und so ihren CO2-Fußabdruck reduziert. Diese Innovation unterstreicht die Bedeutung der Nachhaltigkeit in der Entwicklung der LLMs, da die Größe und Komplexität der Modelle weiterhin zunimmt. Darüber hinaus bleibt die Integration von LLMs in Bereiche wie die medizinische Diagnostik zu verfeinern, wobei eine Studie von UVA Health darauf hinweist, dass LLMs in einigen Aufgaben zwar besser als Ärzte abschneiden können, ihre Integration jedoch die diagnostische Gesamtleistung noch nicht signifikant verbessert hat.

Vollständiger Leitfaden

Architektur: Vom Transformer zu modernen Modellen

Die transformer-Architektur, von der alle modernen LLMs abstammen, basiert auf zwei grundlegenden Bausteinen. Der erste ist der Mechanismus der Self-Attention, der es dem Modell ermöglicht, für jede Position im Text eine gewichtete Kombination der Repräsentationen der anderen Positionen zu berechnen. Dieser Vorgang ist von Natur aus parallelisierbar, was erklärt, warum transformer die zuvor dominierenden rekurrenten Architekturen (RNN, LSTM) im NLP-Bereich seit 2017 abgelöst haben. Der zweite Baustein ist das Stapeln von Dutzenden identischer transformer-Schichten (typischerweise zwischen 32 und 96 bei Spitzenmodellen), wobei jede Schicht die Repräsentation weiter verfeinert.

Moderne LLMs existieren in mehreren architektonischen Varianten:

Dense-Modelle, bei denen alle Parameter bei jeder Inferenz aktiviert werden (historisches GPT-4, Claude, Llama 3.1 405B);
Mixture of Experts (MoE)-Modelle, bei denen je nach verarbeitetem Token nur einige Experten-Subnetze aktiviert werden, was die Inferenzkosten bei gleicher Parameteranzahl reduziert (Mixtral, DeepSeek-V3, mutmaßlich GPT-4o);
Nativ multimodale Modelle, die Text, Bilder, Audio und Video in einem einheitlichen Repräsentationsraum verarbeiten und erzeugen (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
Reasoning models, die vor der Antwort eine explizite chain-of-thought erzeugen - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - mit erhöhter Latenz, aber überlegener Qualität bei Aufgaben aus Mathematik, Logik und Programmierung.

Die wichtigsten Akteure 2026

OpenAI bleibt mit ChatGPT, GPT-4o, GPT-4o mini und der Familie der Reasoning-Modelle o1/o3 der wahrgenommene Marktführer. Das Unternehmen, das 2026 auf mehrere hundert Milliarden Dollar bewertet wird, wird hauptsächlich von Microsoft und SoftBank finanziert. Die Geschäftsstrategie kombiniert API (Bezahlung pro Token), Endkundenprodukt (ChatGPT Plus für 20 $/Monat) und Unternehmenslösungen (ChatGPT Enterprise, Azure OpenAI Service). OpenAI hat sein Portfolio mit OAI-SearchBot, dem eigenen Such-Crawler, und SearchGPT erweitert.

Anthropic, 2021 von ehemaligen OpenAI-Mitarbeitern wie Dario und Daniela Amodei gegründet, setzt auf Sicherheit als Alleinstellungsmerkmal. Die Claude-Familie (Haiku, Sonnet, Opus) ist besonders beliebt für Textgenerierung, Programmieraufgaben und langes Reasoning. Anthropic wird von Amazon, Google und der SoftBank finanziert. Im Mai 2026 bestätigte Anthropic, einen Teil der Colossus 1-Kapazität von xAI für etwa 1,25 Milliarden Dollar pro Monat zu mieten, was die Konzentration von Rechenressourcen illustriert.

Google DeepMind bündelt seit 2023 die AI-Aktivitäten unter der Marke Gemini. Die Gemini-Familie (Nano, Flash, Pro, Ultra, später Gemini 2.0 Flash im Dezember 2024) ist in die Suchmaschine (AI Overviews) und die Workspace-Suite integriert. Google profitiert von einem strukturellen Vorteil durch die Kontrolle über Trainingsdaten (Web, YouTube, Books) und die eigene TPU-Infrastruktur.

Meta setzte auf weights open mit der Llama-Familie (Llama 1 im Februar 2023, Llama 2 im Juli 2023, Llama 3 im April 2024, Llama 3.1 405B im Juli 2024). Diese Strategie hat den Zugang zu foundation models demokratisiert und ein Ökosystem abgeleiteter Modelle (Vicuna, Tulu, sektorale fine-tunes) gefördert. Im Juli 2025 verweigerte Meta jedoch die Unterzeichnung des europäischen GPAI-Verhaltenskodex und verschob vorübergehend die Veröffentlichung von Llama 3 multimodal in Europa.

Mistral AI, im April 2023 in Paris von Arthur Mensch, Guillaume Lample und Timothée Lacroix gegründet, hat sich als europäischer Champion etabliert. Die hybride Strategie kombiniert offene Modelle (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) und proprietäre Modelle (Mistral Large 2, Pixtral Large). Mistral hat den GPAI-Verhaltenskodex unterzeichnet und strategische Partnerschaften mit NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini und SAP geschlossen.

In China haben Alibaba (Qwen-Familie), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) und vor allem DeepSeek die amerikanischen Labore eingeholt und herausgefordert. DeepSeek-V3 beeindruckte die Community im Januar 2025 durch seine Qualität bei etwa 30-fach geringeren Trainingskosten im Vergleich zu westlichen Konkurrenten. DeepSeek-R1, kurz darauf veröffentlicht und im Juni 2025 (R1-0528) aktualisiert, führte zu einem temporären Kurseinbruch bei NVIDIA, da die Dominanz riesiger Infrastrukturen in Frage gestellt wurde.

Weitere Akteure besetzen Spezialrollen: xAI (Grok, Colossus-Infrastruktur), Cohere (mehrsprachige Unternehmensmodelle, Aya 23), AI2 (Tülu 3 405B, vollständig open models), Aleph Alpha (Pharia-1-LLM für Deutsch), Black Forest Labs (FLUX-1 für text-to-image), LightOn (Paradigm für Unternehmen), Hugging Face (Model Hub, SmolLM2), OpenEuroLLM (europäisches open-Konsortium).

Referenzmodelle 2026

Die LLM-Landschaft 2026 umfasst rund ein Dutzend Familien, jeweils mit unterschiedlichen Größen und Varianten:

GPT-4o / GPT-4o mini (OpenAI) - nativ multimodal, geringe Latenz, 128k Token Kontextfenster. GPT-4o mini ist zum wirtschaftlichen Standard für große Volumina geworden.
o1 / o3 (OpenAI) - Reasoning-Modelle mit interner chain-of-thought, führend bei Wettbewerbs-Mathematik (AIME, IMO) und Programmierung (Codeforces).
Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - 200k Kontextfenster, exzellent für lange Texte und Dokumentenverständnis.
Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - nativ multimodal, Integration ins Google-Ökosystem.
Llama 3.1 405B / Llama 3.3 (Meta) - führendes open source dense-Modell.
Mistral Large 2 / Pixtral Large (Mistral AI) - europäisch, open weights bei bestimmten Versionen.
DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - chinesisches open source, Reasoning, spektakulär niedrige Trainingskosten.
Qwen2.5 (Alibaba) - führendes chinesisches open source Multilingual-Modell, 1M Token Kontextfenster.
NOVA (Amazon) - eigene foundation-Familie, angekündigt im Dezember 2024.
Phi-3 / Phi-3.5 (Microsoft) - kompakte, effiziente Modelle für Embedded-Anwendungen.
Hunyuan-T1 (Tencent) - chinesisches Reasoning-Modell auf State-of-the-Art-Niveau.
Grok 3 (xAI) - Echtzeitzugang zu X, massive Infrastruktur.

Training und Kosten

Das Training eines Spitzen-LLM erfordert enorme Ressourcen. Für GPT-4 schätzen öffentliche Quellen das Budget auf etwa 100 Millionen Dollar und mehrere zehntausend H100-GPUs über drei Monate. Llama 3.1 405B benötigte 16.000 H100 und rund 30 Millionen GPU-Stunden. Mistral Large 2 und Mixtral, am anderen Ende des europäischen Spektrums, wurden mit deutlich bescheideneren Budgets trainiert und zeigen, dass mit sorgfältiger Datenarbeit auch mit weniger Aufwand konkurrenzfähige Leistungen erreichbar sind.

Die von OpenAI formalisierten und später von DeepMind (Chinchilla, 2022) verfeinerten scaling laws bestimmten lange die Entwicklung: Die Modellqualität steigt vorhersehbar mit dem Produkt aus Parameterzahl und Trainingsdatenmenge, sofern beide ausgewogen sind. Diese Gleichung wurde Ende 2024 in Frage gestellt: Steigende Budgets führen nicht mehr zu spektakulären Verbesserungen auf offenen Benchmarks, und der Fokus verlagerte sich auf andere Dimensionen - Datenqualität, post-training Reasoning, Agents, Multimodalität.

Die Recheninfrastruktur ist zu einer geopolitischen Schlüsselressource geworden. NVIDIA, mit seiner Quasi-Monopolstellung bei H100/H200/B200-GPUs, schöpft den Großteil des Werts ab. US-Exportkontrollen schränken die Verkäufe nach China ein, was DeepSeek und Alibaba dazu zwang, ihre Trainings auf leistungsschwächere Chips (H800) zu optimieren. xAI errichtete 2024 das Colossus-Rechenzentrum in Memphis mit zunächst 100.000, später 200.000 H100/H200 in weniger als einem Jahr - ein industrieller Rekord.

Fähigkeiten und Grenzen

Moderne LLMs beherrschen ein breites Spektrum an Aufgaben: Textgenerierung, Zusammenfassung, Übersetzung, Codegenerierung, Dialog, Informationsextraktion, Klassifikation sowie die Verarbeitung strukturierter und unstrukturierter Dokumente. Sie sind heute Standardkomponenten in zahlreichen Anwendungen - konversationelle Suchmaschinen, Coding-Assistenten (Copilot, Cursor), juristische und medizinische Agents, Kundensupportsysteme, Office- und Workspace-Produktivitätstools.

Ihre Grenzen sind ebenfalls gut dokumentiert. LLMs halluzinieren - sie erzeugen plausiblen, aber faktisch falschen Inhalt - insbesondere bei Nischenthemen, präzisen Zahlen und bibliografischen Referenzen. Sie sind anfällig für adversariale Angriffe (prompt injection, jailbreak), wie die Studie der EPFL im Dezember 2024 zu den Grenzen von LLMs gegenüber adaptiven Angriffen zeigte. Sie können manipuliert werden, um die Meinungen von Nutzern zu beeinflussen (EPFL-Studie April 2024). Ihr Energie- und Wasserverbrauch ist signifikant - ein zunehmend überwachtes Thema für Regulierungsbehörden und Aktionäre. Ihre Verzerrungen spiegeln die Trainingskorpora wider, die überwiegend anglophon und nordwestlich geprägt sind.

Open Source vs Proprietär

Die Kluft zwischen offenen und geschlossenen LLMs prägt die Debatte seit 2023. Die Befürworter offener Modelle - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - argumentieren mit technologischer Souveränität, der Möglichkeit unabhängiger Audits, wissenschaftlicher Verbreitung und industrieller Resilienz. Die Gegner - Anthropic, OpenAI in Teilbereichen - verweisen auf die Risiken böswilliger Nutzung (Bioterrorismus, Desinformation im großen Stil, Betrug) und die Unmöglichkeit, ein Modell nach Veröffentlichung wieder zurückzuziehen.

Der AI Act trifft eine teilweise Entscheidung, indem er Modellen, deren Parameter, Architektur und Nutzungsinformationen veröffentlicht sind, Teilausnahmen gewährt. Diese Ausnahmen gelten nicht für systemische Risikomodelle (10²⁵ FLOPS Training). 2026 dominieren Llama, Mistral, DeepSeek und Qwen das open source-Ökosystem und decken die meisten Unternehmens- und Wissenschaftsanwendungen ab, ohne von einer einzigen API abhängig zu sein.

Spezialisierte und vertikale Modelle

Über die Generalisten hinaus differenziert sich das Ökosystem in vertikale Modelle aus. Im Medizinbereich: H-optimus-0 von Bioptimus für die medizinische Diagnostik, Pharia-1-LLM von Aleph Alpha für Deutsch, spezielle fine-tunes für Radiologie und Onkologie. Im Rechtsbereich: Lefebvre Dalloz-Barreau de Paris-Assistenten, Talan-Mutuelle Générale-Anwendungen. Im Coding: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. Im Finanzbereich: interne Modelle von BNP Paribas, Crédit Agricole, JPMorgan. Die Bewegung der effizienten kleinen Modelle (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - zielt auf Embedded-Einsätze (Handys, Autos, IoT) mit akzeptabler Qualität bei sehr niedrigen Inferenzkosten.

2025 markierte den Aufstieg der AI Agents als neues Nutzungsparadigma für LLMs. Anstatt nur auf einzelne Anfragen zu antworten, verkettet der Agent Aktionen (Tool-Aufrufe, Webabfragen, Dateischreiben, Codeausführung), um komplexe Aufgaben zu lösen. Gemini 2.0 Flash wurde im Dezember 2024 als Modell vorgestellt, das diesen neuen Produkttyp ermöglicht. AI Decision Matrix von AI Builders bietet einen Bewertungsrahmen für IT-Verantwortliche angesichts der Vielzahl an Lösungen.

Herausforderungen 2026 und darüber hinaus

Mehrere Entwicklungen sind in den kommenden 18 Monaten zu beobachten:

die GPAI-Konformität im Rahmen des AI Act, der seit August 2025 gilt;
die Inferenzökonomie, die das Trainingsökonomie-Volumen überholt hat, mit Fokus auf MoE-Architekturen und Quantisierung (BitNet, vLLM, llm-optimizer);
die Verknüpfung mit dem Urheberrecht, insbesondere nach dem Scheitern des Darcos-Gesetzes in Frankreich und laufender Rechtsprechung zu Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
das Rennen um Reasoning-Modelle, bei dem OpenAI o3, DeepSeek-R1, Gemini Thinking und Hunyuan-T1 konkurrieren;
die multimodale Konvergenz, mit nativen Modellen, die Text, Bild, Video und Audio in einem einheitlichen Raum verarbeiten;
die Emergenz von Agents und die damit verbundenen Fragen der Zuverlässigkeit (Erfolgsraten bei langen Aufgaben), Sicherheit (Kontrolle über durchgeführte Aktionen) und Geschäftsmodelle;
die europäische Souveränität, verkörpert durch Mistral, OpenEuroLLM, LightOn, Aleph Alpha und das Bemühen um Entkopplung der Inferenzberechnung mit OVHcloud und den neuen NVIDIA Tensor Core GPUs.

Die Entwicklung der LLMs ist längst mehr als ein Wettrennen um Parameterzahlen. Die Gewinner werden Datenqualität, post-training Reinforcement, kontrollierte Inferenzinfrastruktur, eine zum Zielmarkt passende Lizenzstrategie und regulatorische Compliance vereinen. Es ist heute ebenso ein industrielles, geopolitisches und juristisches Thema wie ein wissenschaftliches.

Häufig gestellte Fragen

Was ist ein LLM (Large Language Model)?

Ein LLM ist ein sehr großes neuronales Netzwerk - von mehreren Milliarden bis zu mehreren Hundert Milliarden Parametern - basierend auf der transformer-Architektur. Es wird darauf trainiert, das nächste Token eines Textes vorherzusagen, anhand von Hunderten von Milliarden bis zu mehreren Billionen Tokens. Aus dieser einfachen Aufgabe entstehen komplexe Fähigkeiten: Dialog, logisches Denken, Code-Generierung, Übersetzung.

Was ist der Unterschied zwischen LLM und foundation models?

Ein foundation model ist ein wiederverwendbares IA-Modell als Basis für viele spezialisierte Anwendungen durch fine-tuning, RAG oder prompt engineering. Ein LLM ist ein Typ von foundation model, der auf Sprache spezialisiert ist. Der Begriff umfasst aber auch multimodale Modelle (Bild, Audio, Video), die derselben architektonischen und wirtschaftlichen Logik folgen.

Welche sind die leistungsstärksten LLM im Jahr 2026?

Auf öffentlichen Benchmarks: GPT-4o und o1/o3 (OpenAI), Claude 3.5 Sonnet und Claude 3 Opus (Anthropic), Gemini 2.0 Flash und Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 und DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Keines dominiert in allen Dimensionen; die Wahl hängt vom Anwendungsfall ab (logisches Denken, Latenz, Kosten, Sprachen, Multimodalität).

Wie viel kostet das Training eines Spitzen-LLM?

Für dichte Modelle mit mehr als 70 Milliarden Parametern liegen die Budgets zwischen 5 und 100 Millionen Dollar, je nach Größe und Effizienz. GPT-4 wird auf etwa 100 Mio. $ geschätzt, Llama 3.1 405B auf etwa 50 Mio. $, DeepSeek-V3 auf etwa 5 Mio. $ (Effizienzrekord). Diese Zahlen beziehen sich nur auf das finale Training; unter Einbeziehung von Vorversuchen und Post-Training sind die Gesamtkosten 3 bis 10 Mal höher.

Was ist ein Mixture of Experts (MoE) Modell?

Das ist eine Architektur, bei der das Netzwerk in mehrere spezialisierte Experten-Subnetze aufgeteilt ist, und ein Router wählt für jedes Token einige Experten zur Aktivierung aus. Dadurch kann die Gesamtanzahl der Parameter erhöht werden, ohne die Inferenzkosten proportional zu steigern. Mixtral 8x7B, DeepSeek-V3 und GPT-4o (vermutlich) nutzen diese Architektur.

Warum hat DeepSeek im Januar 2025 einen solchen Schock ausgelöst?

DeepSeek-V3 und später DeepSeek-R1 haben gezeigt, dass das Niveau der besten proprietären US-Modelle mit etwa 30-fach geringerem Trainingsbudget und in open source erreichbar ist. Das stellte den Vorteil massiver Infrastrukturen in Frage und führte zu einem temporären Kurssturz bei NVIDIA, was die Fragilität der aktuellen Bewertung des IA-Ökosystems verdeutlichte.

Welche sind die europäischen LLM?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) ist der europäische Marktführer. Aleph Alpha entwickelt Pharia-1-LLM auf Deutsch. LightOn bietet Paradigm für Unternehmen an. Black Forest Labs entwickelt FLUX-1 für text-to-image. OpenEuroLLM ist ein europäisches akademisches Konsortium. Das Ziel des Projekts ist es, eine souveräne Alternative zu amerikanischen und chinesischen Modellen zu schaffen.

Open source oder proprietär: Welche Wahl treffen?

Das hängt vom Anwendungsfall ab. Proprietär (OpenAI, Anthropic, Gemini) bietet die Einfachheit einer verwalteten API und Zugang zu Spitzentechnologien. Open source (Llama, Mistral, DeepSeek) ermöglicht On-Premise-Hosting, Datensouveränität, Modellaudit und die Vermeidung von Vendor-Lock-in - zum Preis von Infrastruktur- und internem Expertenaufwand. Für regulierte Anwendungen (Gesundheit, Finanzen, Verteidigung) wird gehostetes open source oft zum Standard.

Was ist ein reasoning model?

Ein reasoning model erzeugt explizit eine chain-of-thought, bevor es antwortet, was die Leistung bei Wettbewerbs-Mathematik, Logik und Programmierung drastisch verbessert. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 und Gemini Thinking sind die wichtigsten Vertreter. Die Inferenzkosten steigen (höhere Latenz), aber auch die Qualität.

Was sind die Hauptrisiken im Zusammenhang mit LLM?

Halluzinationen (Erzeugung faktisch falscher Inhalte), prompt injection und jailbreak (Umgehung von Schutzmechanismen), Bias (Widerspiegelung des Trainingskorpus), Meinungsmanipulation (EPFL-Studie 2024), Energie- und Wasserverbrauch, Leckage privater Daten, industrielle Abhängigkeit von Modell- und GPU-Anbietern. Der AI Act adressiert mehrere dieser Risiken bei Modellen mit systemischem Risiko.

Wie wird ein LLM evaluiert?

Durch öffentliche Benchmarks (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), durch Blindbewertungen von Menschen (Chatbot Arena) und durch interne Tests, die auf den Anwendungsfall zugeschnitten sind. Offene Benchmarks sind schnell gesättigt: Ein Modell, das über 90 % auf MMLU erreicht, ist nicht mehr unterscheidbar. Die Bewertung anhand realer Aufgaben (Textproduktion, Codegenerierung, langes logisches Denken) bleibt unerlässlich.

Was ist der nächste Schritt für LLM?

IA-Agenten - Systeme, die komplexe Aktionen autonom ausführen können - sind das große Thema 2025-2027. Darüber hinaus arbeitet die Branche an langfristiger Zuverlässigkeit (Alignment, Sicherheit), Inferenz-Effizienz, nativer multimodaler Konvergenz, kontinuierlichem Lernen und infrastruktureller Souveränität. Die Frage der Trainingsdaten bleibt zentral: Öffentliche Webkorpora stoßen an ihre Grenzen, was den Weg für synthetische Daten und Verlagspartnerschaften ebnet.

Articles récents

4 articles liés à ce sujet

Alibaba stellt seine intelligenten Cockpits, KI-Brillen und strategischen Partnerschaften auf der WAIC 2025 vor

Auf der World Artificial Intelligence Conference 2025 präsentierte Alibaba Cloud mehrere Anwendungen ihrer KI-Sprachmodelle, darunter ein intelligente...

KI-Markt Kommerzielles Produkt

1. Aug 2025 Weiterlesen →

DeepSeek-R1-0528: Das chinesische Start-up misst sich weiterhin mit den amerikanischen Giganten durch ein Update seines Flaggschiff-Modells

Die chinesische Start-up DeepSeek hat sein Modell R1 aktualisiert und dabei dessen Leistungen in den Bereichen logisches Denken, Logik, Mathematik und...

Tools und Technologien Kommerzielles Produkt

2. Jun 2025 Weiterlesen →

Wenn KI zum Schutzschild wird: Was LLMs konkret an der Cybersicherheit ändern

Sprachmodelle (LLMs) werden zunehmend in der Cybersicherheit eingesetzt, um Schwachstellen und Angriffe schneller zu erkennen. Trotz ihrer Effektivitä...

Sicherheit

15. Mai 2025 Weiterlesen →

Tencent führt das Hunyuan-T1-Modell ein, das mit dem Stand der Technik konkurriert

Nur einen Monat nach der Einführung seines TurboS-Reasoning-Modells enthüllt Tencent das Modell Hunyuan-T1, das mit DeepSeek R1 konkurriert.

KI-Markt

19. Apr 2025 Weiterlesen →

Statistiques

Articles totaux 4

Contenu mis à jour vor 5 Tagen

Nach Kategorie

Nach Branche