Logo ActuIA ActuIA

De bron van informatie
over kunstmatige intelligentie

Français English Español Italiano Deutsch Română Polski Português العربية Türkçe Українська 中文 日本語 한국어
Publiceren
Accueil
AI-monitor

Per categorie

Financiering Fusies en overnames Modelrelease Productlancering Partnerschap Openbaar programma / oproep Regelgeving en governance Geschillen Onderzoek en wetenschap Implementatie en adoptie Infrastructuur en compute Bedrijf en strategie Beveiliging en incidenten Rapport en studie Evenement

Per sector

Bedrijf Cultuur Financiën Gezondheid - geneeskunde Industrie Justitie Marketing Media Onderwijs Risicopreventie Transport Verzekering

Per categorie

Financiering Fusies en overnames Modelrelease Productlancering Partnerschap Openbaar programma / oproep Regelgeving en governance Geschillen Onderzoek en wetenschap Implementatie en adoptie Infrastructuur en compute Bedrijf en strategie Beveiliging en incidenten Rapport en studie Evenement

Per sector

Bedrijf Cultuur Financiën Gezondheid - geneeskunde Industrie Justitie Marketing Media Onderwijs Risicopreventie Transport Verzekering
Dernières actualités
Taal

LLM : grote taalmodellen en foundation models

Ga naar laatste nieuws
Tech family
Grote taalmodellen (in het Engels Large Language Models, of LLM) zijn neurale netwerken die getraind zijn op enorme tekstcorpora om het meest waarschijnlijke vervolg van een reeks woorden te voorspellen. Sinds 2022 vormen ze de belangrijkste motor achter generatieve IA en zijn ze het strijdtoneel van een ongekende industriële concurrentie tussen OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek en een twintigtal andere spelers. Op deze pagina vind je een overzicht van hun architectuur, de belangrijkste spelers, de toonaangevende modellen in 2026 en de controverses die ermee gepaard gaan.

📰 Actualités récentes

Recente nieuwsberichten

Grote taalmodellen (LLM's) blijven het landschap van kunstmatige intelligentie transformeren en worden essentiële hulpmiddelen in verschillende domeinen, van cybersecurity tot geneeskunde. Onlangs heeft DeepSeek een update onthuld van zijn R1-model, de DeepSeek-R1-0528, die zijn capaciteiten op het gebied van redeneren, logica en programmeren versterkt. Deze versie, uitgebracht op 28 mei 2025, benadert de prestaties van de toonaangevende modellen van OpenAI en Google, terwijl het het hallucinatiepercentage vermindert, een terugkerend probleem voor LLM's. Tegelijkertijd heeft Tencent Hunyuan-T1 geïntroduceerd, een redeneermodel dat een innovatieve hybride architectuur gebruikt om te concurreren met de marktleiders. Deze ontwikkelingen benadrukken een groeiende trend naar het verbeteren van de redeneercapaciteiten van LLM's, een cruciaal element in hun vermogen om te integreren in complexe en kritieke systemen.

Op het gebied van cybersecurity tonen LLM's hun potentieel door het vergemakkelijken van de detectie en analyse van bedreigingen. Een studie van de Universiteit van New York benadrukt hun vermogen om enorme hoeveelheden tekstgegevens te benutten om aanvallen te anticiperen en erop te reageren, waardoor cybersecurity een responsiever en proactiever domein wordt. Modellen zoals SecureBERT, gespecialiseerd in cybersecurity, tonen veelbelovende resultaten, hoewel hun verfijning een uitdaging blijft voor bedrijven. Deze evolutie naar gespecialiseerde LLM's weerspiegelt een trend naar diversificatie van de toepassingen van taalmodellen, die inspelen op specifieke behoeften en tegelijkertijd hun precisie en betrouwbaarheid verbeteren.

De belangstelling voor open source LLM's blijft ook aanhouden, met initiatieven zoals die van het Allen Institute for AI, dat Tülu 3 405B heeft gelanceerd, een krachtig open source-model gebaseerd op Llama 3.1. Dit model onderscheidt zich door het gebruik van versterkend leren met verifieerbare beloningen, waardoor de prestaties bij complexe taken worden verbeterd. Ondertussen heeft Mistral AI Mistral Small 3 gelanceerd, een model geoptimaliseerd voor latentie, dat een open source alternatief biedt voor propriëtaire modellen. Deze initiatieven weerspiegelen een wens om de toegang tot LLM's te democratiseren en tegelijkertijd de inferentiekosten te verlagen, een cruciale kwestie om hun adoptie te vergroten, vooral in omgevingen met beperkte middelen.

Terwijl grote taalmodellen zich blijven ontwikkelen, blijven er uitdagingen bestaan, met name op het gebied van inferentiekosten en milieu-impact. Microsoft heeft onlangs BitNet.cpp gepresenteerd, een open source framework dat de inferentie van tot 1 bit gekwantificeerde LLM's optimaliseert, waardoor hun ecologische voetafdruk wordt verminderd. Deze innovatie benadrukt het belang van duurzaamheid in de evolutie van LLM's, terwijl de grootte en complexiteit van modellen blijven toenemen. Bovendien blijft de integratie van LLM's in domeinen zoals medische diagnostiek te verfijnen, waarbij een studie van UVA Health aangeeft dat hoewel LLM's artsen in bepaalde taken kunnen overtreffen, hun integratie nog niet significant de algemene diagnostische prestaties heeft verbeterd.

Volledige gids

Architectuur: van transformer tot moderne modellen

De transformer-architectuur, waaruit alle moderne LLM voortkomen, steunt op twee fundamentele bouwstenen. De eerste is het self-attention-mechanisme, waarmee het model voor elke positie in de tekst een gewogen combinatie kan berekenen van de representaties van andere posities. Deze operatie is intrinsiek paralleliseerbaar, wat verklaart waarom transformers de recurrente architecturen (RNN, LSTM) hebben verdrongen die tot 2017 het NLP-domein domineerden. De tweede bouwsteen is het stapelen van tientallen identieke transformer-lagen (typisch tussen de 32 en 96 bij de meest geavanceerde modellen), waarbij elke laag de representatie verder verfijnt.

De hedendaagse LLM zijn beschikbaar in verschillende architecturale varianten:

  • Dense modellen, waarbij alle parameters bij elke inferentie worden geactiveerd (historische GPT-4, Claude, Llama 3.1 405B);
  • Mixture of Experts (MoE)-modellen, waarbij slechts enkele expert-subnetwerken worden geactiveerd afhankelijk van de verwerkte token, wat de inferentiekosten verlaagt bij een gelijk aantal parameters (Mixtral, DeepSeek-V3, vermoedelijk GPT-4o);
  • Natuurlijk multimodale modellen, die tekst, beeld, geluid en video verwerken en genereren binnen een verenigde representatieruimte (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
  • Reasoning models, die expliciet een chain-of-thought genereren alvorens te antwoorden - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - met als keerzijde een hogere latentie, maar superieure prestaties op wiskunde-, logica- en programmeertaken.

De belangrijkste spelers in 2026

OpenAI blijft de waargenomen marktleider met ChatGPT, GPT-4o, GPT-4o mini en de familie reasoning-modellen o1/o3. Het bedrijf, in 2026 gewaardeerd op enkele honderden miljarden dollars, wordt voornamelijk gefinancierd door Microsoft en SoftBank. De commerciële strategie combineert API (betaling per token), consumentenproduct (ChatGPT Plus voor 20 $/maand) en zakelijke oplossingen (ChatGPT Enterprise, Azure OpenAI Service). OpenAI heeft zijn portfolio uitgebreid met OAI-SearchBot, zijn zoekcrawler, en SearchGPT.

Anthropic, opgericht in 2021 door voormalige OpenAI-medewerkers waaronder Dario en Daniela Amodei, heeft veiligheid als onderscheidend kenmerk gekozen. De Claude-familie (Haiku, Sonnet, Opus) is vooral geliefd voor schrijven, coderen en lang-context redeneervermogen. Anthropic wordt gefinancierd door Amazon, Google en SoftBank. In mei 2026 bevestigde Anthropic dat het een deel van de capaciteit van Colossus 1 van xAI huurt voor ongeveer 1,25 miljard dollar per maand, wat de concentratie van rekenkracht illustreert.

Google DeepMind bundelt sinds 2023 zijn AI-activiteiten onder het merk Gemini. De Gemini-familie (Nano, Flash, Pro, Ultra, gevolgd door Gemini 2.0 Flash in december 2024) is geïntegreerd in de zoekmachine (AI Overviews) en in de Workspace-suite. Google profiteert van een structureel voordeel dankzij de controle over trainingsdata (Web, YouTube, Books) en zijn TPU-infrastructuur.

Meta heeft gekozen voor weights open met de Llama-familie (Llama 1 in februari 2023, Llama 2 in juli 2023, Llama 3 in april 2024, Llama 3.1 405B in juli 2024). Deze strategie heeft de toegang tot foundation models gedemocratiseerd en een ecosysteem van afgeleide modellen gevoed (Vicuna, Tulu, sectorale fine-tunes). Meta weigerde echter in juli 2025 het Europese GPAI-code of conduct te ondertekenen en stelde de release van Llama 3 multimodaal in Europa tijdelijk uit.

Mistral AI, opgericht in Parijs in april 2023 door Arthur Mensch, Guillaume Lample en Timothée Lacroix, heeft zich gepositioneerd als de Europese kampioen. De hybride strategie combineert open modellen (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) en proprietary modellen (Mistral Large 2, Pixtral Large). Mistral heeft het GPAI-code of conduct ondertekend en strategische partnerschappen gesloten met NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini en SAP.

In China hebben Alibaba (Qwen-familie), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) en vooral DeepSeek de Amerikaanse labs ingehaald en uitgedaagd. DeepSeek-V3 verbaasde de gemeenschap in januari 2025 met zijn kwaliteit tegen trainingskosten die ongeveer 30 keer lager liggen dan die van westerse concurrenten. DeepSeek-R1, kort daarna gelanceerd en in juni 2025 geüpdatet (R1-0528), veroorzaakte een tijdelijke beursdaling van NVIDIA door de vraag naar enorme infrastructuren ter discussie te stellen.

Andere spelers vervullen gespecialiseerde rollen: xAI (Grok, Colossus-infrastructuur), Cohere (meertalige zakelijke modellen, Aya 23), AI2 (Tülu 3 405B, volledig open modellen), Aleph Alpha (Pharia-1-LLM in het Duits), Black Forest Labs (FLUX-1 voor text-to-image), LightOn (Paradigm voor bedrijven), Hugging Face (modelhub, SmolLM2), OpenEuroLLM (Europees open consortium).

Referentiemodellen in 2026

Het landschap van toonaangevende LLM in 2026 bestaat uit ongeveer een dozijn families, elk met hun eigen groottes en varianten:

  • GPT-4o / GPT-4o mini (OpenAI) - native multimodaal, lage latentie, context window van 128k tokens. GPT-4o mini is de economische standaard geworden voor grootschalige uitrol.
  • o1 / o3 (OpenAI) - reasoning-modellen met interne chain-of-thought, uitmuntend in competitieve wiskunde (AIME, IMO) en programmeren (Codeforces).
  • Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - 200k context, uitstekend in lang schrijven en documentanalyse.
  • Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - native multimodaal, integratie met het Google-ecosysteem.
  • Llama 3.1 405B / Llama 3.3 (Meta) - toonaangevende open source dense modellen.
  • Mistral Large 2 / Pixtral Large (Mistral AI) - Europees, open weights voor bepaalde versies.
  • DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - Chinese open source, reasoning, spectaculair lage trainingskosten.
  • Qwen2.5 (Alibaba) - Chinese open source meertalig leider, context window van 1M tokens.
  • NOVA (Amazon) - eigen foundation-familie aangekondigd in december 2024.
  • Phi-3 / Phi-3.5 (Microsoft) - compacte, efficiënte modellen voor embedded toepassingen.
  • Hunyuan-T1 (Tencent) - Chinese reasoning model dat meedoet aan de internationale top.
  • Grok 3 (xAI) - real-time toegang tot X, massale infrastructuur.

Training en kosten

Het trainen van een toonaangevende LLM vereist enorme middelen. Voor GPT-4 wordt geschat dat het budget rond de 100 miljoen dollar lag, met enkele tienduizenden H100 GPU's gedurende drie maanden. Llama 3.1 405B vereiste 16.000 H100 en ongeveer 30 miljoen GPU-uren. Mistral Large 2 en Mixtral, aan de andere kant van het Europese spectrum, werden getraind met aanzienlijk bescheidener budgetten en tonen aan dat competitieve prestaties mogelijk zijn met zorgvuldig databeheer.

De scaling laws die eerst door OpenAI en later verfijnd door DeepMind (Chinchilla, 2022) zijn geformaliseerd, bepaalden lange tijd het speelveld: de kwaliteit van een model stijgt voorspelbaar met het product van het aantal parameters en de hoeveelheid trainingsdata, mits de balans klopt. Eind 2024 werd deze formule ter discussie gesteld: stijgende budgetten leveren niet langer spectaculaire winst op bij open benchmarks, en de focus is verschoven naar andere factoren - datakwaliteit, post-training reasoning, agents, multimodaliteit.

De rekeninfrastructuur is een geopolitiek strijdpunt geworden. NVIDIA, met zijn vrijwel exclusieve positie op H100/H200/B200 GPU's, vangt het grootste deel van de waarde. Amerikaanse exportcontroles beperken de verkoop naar China, waardoor DeepSeek en Alibaba hun training hebben geoptimaliseerd voor mindere chips (H800). xAI bouwde in 2024 het Colossus-datacenter in Memphis, met 100.000 H100 en later 200.000 H100/H200, in minder dan een jaar - een industrieel record.

Capaciteiten en beperkingen

Moderne LLM beheersen een breed scala aan taken: schrijven, samenvatten, vertalen, code genereren, dialogeren, informatie-extractie, classificatie, verwerking van gestructureerde en ongestructureerde documenten. Ze zijn standaardonderdelen geworden van talloze toepassingen - conversatiezoekmachines, code-assistenten (Copilot, Cursor), juridische en medische agents, klantenservicesystemen, Office- en Workspace-productiviteitstools.

Hun beperkingen zijn ook goed gedocumenteerd. LLM hallucineren - ze genereren plausibele maar feitelijk onjuiste inhoud - vooral bij nicheonderwerpen, exacte cijfers en bibliografische referenties. Ze zijn kwetsbaar voor adversariële aanvallen (prompt injection, jailbreak), zoals aangetoond door het EPFL-onderzoek van december 2024 over de grenzen van LLM bij adaptieve aanvallen. Ze kunnen worden gemanipuleerd om gebruikersmeningen te beïnvloeden (EPFL-studie april 2024). Hun energie- en waterverbruik is aanzienlijk - een punt van groeiende zorg voor toezichthouders en aandeelhouders. Hun bias weerspiegelt die van de trainingscorpora, vooral Engelstalig en Noordwesters.

Open source vs. proprietary

De tegenstelling tussen open en gesloten LLM bepaalt het debat sinds 2023. Voorstanders van open modellen - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - benadrukken technologische soevereiniteit, de mogelijkheid tot onafhankelijke audit, academische verspreiding en industriële veerkracht. Tegenstanders - Anthropic, OpenAI op bepaalde vlakken - wijzen op het risico van malafide toepassingen (bioterrorisme, grootschalige desinformatie, fraude) en het onvermogen om een model terug te trekken zodra het is gepubliceerd.

De AI Act biedt gedeeltelijk een antwoord door gedeeltelijke vrijstellingen te verlenen aan modellen waarvan de parameters, architectuur en gebruiksinformatie openbaar zijn gemaakt. Deze vrijstellingen gelden niet voor modellen met systemisch risico (10²⁵ FLOPS training). In 2026 wordt het open source-ecosysteem gedomineerd door Llama, Mistral, DeepSeek en Qwen, die het merendeel van zakelijke en academische use cases afdekken zonder afhankelijk te zijn van de API van een enkele aanbieder.

Gespecialiseerde en verticale modellen

Buiten de generalistische modellen groeit het ecosysteem van verticale modellen. In de zorg: H-optimus-0 van Bioptimus voor medische diagnose, Pharia-1-LLM van Aleph Alpha in het Duits, specifieke fine-tunes voor radiologie en oncologie. In het recht: Lefebvre Dalloz-Barreau de Paris-assistenten, Talan-Mutuelle Générale-applicaties. In code: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. In de financiële sector: interne modellen van BNP Paribas, Crédit Agricole, JPMorgan. De beweging van kleine efficiënte modellen (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - richt zich op embedded toepassingen (telefoons, auto's, IoT) met aanvaardbare kwaliteit tegen zeer lage inferentiekosten.

In 2025 zijn AI agents opgekomen als nieuw paradigma voor LLM-gebruik. In plaats van een geïsoleerde vraag te beantwoorden, voert de agent een reeks acties uit (tool calls, webconsultatie, bestandscreatie, code-uitvoering) om een complexe taak op te lossen. Gemini 2.0 Flash werd in december 2024 gepresenteerd als het model dat deze nieuwe productfamilie inluidt. AI Decision Matrix van AI Builders biedt een vergelijkingskader voor IT-managers die geconfronteerd worden met een overvloed aan oplossingen.

Uitdagingen in 2026 en daarna

Enkele trends om de komende 18 maanden te volgen:

  • de GPAI-conformiteit in het licht van de AI Act, sinds augustus 2025 van kracht;
  • de inferentie-economie, die qua volume de trainingseconomie heeft ingehaald, met een verschuiving naar MoE-architecturen en quantisatie (BitNet, vLLM, llm-optimizer);
  • de verhouding tot het auteursrecht, vooral na het afwijzen van de Darcos-wet in Frankrijk en lopende jurisprudentie over Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
  • de race naar reasoning-modellen, met concurrentie tussen OpenAI o3, DeepSeek-R1, Gemini Thinking en Hunyuan-T1;
  • de multimodale convergentie, met native modellen die tekst, beeld, video en audio in één ruimte verwerken;
  • de opkomst van agents en de bijbehorende vraagstukken rond betrouwbaarheid (slagingspercentages bij langdurige taken), veiligheid (controle over uitgevoerde acties) en businessmodel;
  • de Europese soevereiniteit, belichaamd door Mistral, OpenEuroLLM, LightOn, Aleph Alpha, en de inspanning om inferentieberekeningen te desindexeren met OVHcloud en de nieuwe NVIDIA Tensor Core GPU's.

De evolutie van LLM draait niet langer alleen om het aantal parameters. De winnaars zullen datakwaliteit, post-training reinforcement, beheersing van inferentie-infrastructuur, een consistente licentiestrategie voor hun doelgroep en naleving van regelgeving combineren. Het is nu net zozeer een industrieel, geopolitiek en juridisch vraagstuk als een wetenschappelijk thema.

Veelgestelde vragen

Wat is een LLM (large language model)?

Een LLM is een neuraal netwerk van zeer grote omvang - van meerdere miljarden tot honderden miljarden parameters - gebaseerd op de transformer-architectuur. Het wordt getraind om het volgende token in een tekst te voorspellen, op basis van honderden miljarden tot meerdere biljoenen tokens. Uit deze eenvoudige taak ontstaan complexe capaciteiten: dialoog, redeneren, codegeneratie, vertaling.

Wat is het verschil tussen een LLM en een foundation model?

Een foundation model is een herbruikbaar IA-model dat als basis dient voor vele gespecialiseerde toepassingen via fine-tuning, RAG of prompt engineering. Een LLM is een type foundation model dat gespecialiseerd is in taal. Maar de term wordt ook gebruikt voor multimodale modellen (beeld, audio, video) die dezelfde architecturale en economische logica delen.

Wat zijn de krachtigste LLM's in 2026?

Op publieke benchmarks: GPT-4o en o1/o3 (OpenAI), Claude 3.5 Sonnet en Claude 3 Opus (Anthropic), Gemini 2.0 Flash en Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 en DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Geen enkele domineert op alle vlakken; de keuze hangt af van de use case (redeneren, latentie, kosten, talen, multimodaliteit).

Wat kost het trainen van een toonaangevende LLM?

Voor dense modellen met meer dan 70 miljard parameters liggen de budgetten tussen 5 en 100 miljoen dollar, afhankelijk van grootte en efficiëntie. GPT-4 wordt geschat op ~100 M$, Llama 3.1 405B op ~50 M$, DeepSeek-V3 op ~5 M$ (efficiëntierecord). Deze cijfers dekken enkel de finale training; inclusief voorgaande experimenten en post-training liggen de totale kosten 3 tot 10 keer hoger.

Wat is een Mixture of Experts (MoE) model?

Dit is een architectuur waarbij het netwerk is opgedeeld in verschillende gespecialiseerde subnetwerken (experts), en een router selecteert voor elk token enkele experts om te activeren. Hierdoor kan het totale aantal parameters toenemen zonder dat de inference-kosten evenredig stijgen. Mixtral 8x7B, DeepSeek-V3 en GPT-4o (vermoedelijk) gebruiken deze architectuur.

Waarom veroorzaakte DeepSeek zo'n schok in januari 2025?

DeepSeek-V3 en vervolgens DeepSeek-R1 toonden aan dat het mogelijk is om het niveau van de beste Amerikaanse propriëtaire modellen te bereiken met een ongeveer 30 keer lager trainingsbudget en in open source. Dit stelde het voordeel van massale infrastructuren ter discussie en veroorzaakte een tijdelijke beursdaling van NVIDIA, wat de kwetsbaarheid van de huidige waardering van het IA-ecosysteem illustreerde.

Wat zijn de Europese LLM's?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) is de Europese leider. Aleph Alpha ontwikkelt Pharia-1-LLM in het Duits. LightOn biedt Paradigm voor bedrijven. Black Forest Labs ontwikkelt FLUX-1 voor text-to-image. OpenEuroLLM is een Europees academisch consortium. Het project streeft naar een soeverein alternatief voor Amerikaanse en Chinese modellen.

Open source of propriëtair: welke keuze maken?

Dit hangt af van de use case. Propriëtair (OpenAI, Anthropic, Gemini) biedt het gemak van een beheerde API en toegang tot de nieuwste modellen. Open source (Llama, Mistral, DeepSeek) maakt on-premise hosting, datasoevereiniteit, model-audit en het vermijden van vendor lock-in mogelijk - in ruil voor infrastructuurkosten en interne expertise. Voor gereguleerde toepassingen (gezondheid, financiën, defensie) wordt gehoste open source vaak de norm.

Wat is een redeneermodel?

Een redeneermodel produceert expliciet een chain-of-thought voordat het antwoordt, wat de prestaties op competitieve wiskunde, logica en programmeren drastisch verbetert. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 en Gemini Thinking zijn de belangrijkste voorbeelden. De inference-kosten nemen toe (hogere latentie), maar de kwaliteit ook.

Wat zijn de belangrijkste risico's verbonden aan LLM's?

Hallucinaties (genereren van feitelijk onjuiste inhoud), prompt injection en jailbreak (omzeilen van safeguards), bias (weerspiegeling van de trainingscorpus), opiniebeïnvloeding (EPFL-studie 2024), energie- en waterverbruik, lekken van privégegevens, industriële afhankelijkheid van model- en GPU-leveranciers. De AI Act adresseert meerdere van deze risico's voor modellen met systemisch risico.

Hoe wordt een LLM geëvalueerd?

Door publieke benchmarks (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), door blinde menselijke evaluaties (Chatbot Arena), en door interne tests aangepast aan de use case. Open benchmarks raken snel verzadigd: een model dat boven 90% op MMLU scoort, is niet meer te onderscheiden van andere. Evaluatie op echte taken (schrijven, codeproductie, lang redeneren) blijft essentieel.

Wat is de volgende stap voor LLM's?

IA-agents - systemen die zelfstandig complexe acties kunnen uitvoeren - zijn het grote project voor 2025-2027. Daarnaast werkt de industrie aan langetermijnbetrouwbaarheid (alignment, veiligheid), inference-efficiëntie, native multimodale convergentie, continu leren en infrastructurele soevereiniteit. De kwestie van trainingsdata blijft bepalend: publieke webcorpora raken verzadigd, wat de weg opent naar synthetische data en uitgeverspartnerschappen.

gerelateerde berichten

Articles récents

3 articles liés à ce sujet

Alibaba presenteert zijn slimme cockpits, AI-brillen en strategische samenwerkingen op de WAIC 2025

Alibaba presenteert zijn slimme cockpits, AI-brillen en strategische samenwerkingen op de WAIC 2025

Tijdens de World Artificial Intelligence Conference 2025 onthulde Alibaba Cloud diverse toepassingen van zijn AI-taalmodellen, waaronder een slimme co...

AI-markt Commercieel product
1 aug. 2025 Leer meer →
DeepSeek-R1-0528: de Chinese start-up blijft de strijd aangaan met Amerikaanse giganten met een update van hun vlaggenschipmodel

DeepSeek-R1-0528: de Chinese start-up blijft de strijd aangaan met Amerikaanse giganten met een update van hun vlaggenschipmodel

De Chinese start-up DeepSeek heeft hun R1-model geüpdatet, waardoor de prestaties op het gebied van redenering, logica, wiskunde en programmering zijn...

Tools en technologieën Commercieel product
2 jun. 2025 Leer meer →
Wanneer AI een schild wordt: wat LLM's concreet veranderen aan cybersecurity

Wanneer AI een schild wordt: wat LLM's concreet veranderen aan cybersecurity

De grote taalmodellen (LLM's) worden steeds vaker gebruikt in cybersecurity, waardoor kwetsbaarheden en aanvallen sneller kunnen worden gedetecteerd....

Beveiliging
15 mei 2025 Leer meer →

Statistiques

Articles totaux 3
Contenu mis à jour 5 dagen geleden
Logo ActuIA Logo ActuIA

Uw informatiebron over kunstmatige intelligentie en de ontwikkelingen ervan.

Navigatie

  • Juridische informatie
  • Contact

Volg ons

© 2019-2026 Net Square Digital. Alle rechten voorbehouden.