Alibaba présente ses cockpits intelligents, lunettes IA et partenariats stratégiques au WAIC 2025
À l’occasion de la World Artificial Intelligence Conference (WAIC) 2025, Alibaba Cloud a présenté plusieurs démonstr...
Les grands modèles de langage (LLM) continuent de transformer le paysage de l'intelligence artificielle, en s'imposant comme des outils essentiels dans divers domaines, allant de la cybersécurité à la médecine. Récemment, DeepSeek a dévoilé une mise à jour de son modèle R1, le DeepSeek-R1-0528, qui renforce ses capacités de raisonnement, de logique et de programmation. Cette version, publiée le 28 mai 2025, se rapproche des performances des modèles phares d'OpenAI et de Google, tout en réduisant le taux d'hallucination, un problème récurrent pour les LLMs. Parallèlement, Tencent a introduit Hunyuan-T1, un modèle de raisonnement qui utilise une architecture hybride innovante pour rivaliser avec les leaders du marché. Ces développements soulignent une tendance croissante vers l'amélioration des capacités de raisonnement des LLMs, un élément clé dans leur capacité à s'intégrer dans des systèmes complexes et critiques.
Dans le domaine de la cybersécurité, les LLMs démontrent leur potentiel en facilitant la détection et l'analyse des menaces. Une étude de l'Université de New York souligne leur capacité à exploiter des masses de données textuelles pour anticiper et réagir à des attaques, transformant ainsi la cybersécurité en un secteur plus réactif et proactif. Les modèles comme SecureBERT, spécialisés dans la cybersécurité, montrent des résultats prometteurs, bien que leur affinement reste un défi pour les entreprises. Cette évolution vers des LLMs spécialisés reflète une tendance à la diversification des applications des modèles de langage, répondant à des besoins spécifiques tout en améliorant leur précision et leur fiabilité.
L'engouement pour les LLMs open source se poursuit également, avec des initiatives comme celles de l'Allen Institute for AI, qui a lancé Tülu 3 405B, un modèle open source performant basé sur Llama 3.1. Ce modèle se distingue par l'utilisation de l'apprentissage par renforcement avec récompenses vérifiables, améliorant ses performances dans des tâches complexes. En parallèle, Mistral AI a lancé Mistral Small 3, un modèle optimisé pour la latence, offrant une alternative open source aux modèles propriétaires. Ces initiatives reflètent une volonté de démocratiser l'accès aux LLMs tout en réduisant les coûts d'inférence, un enjeu crucial pour élargir leur adoption, surtout dans les environnements où les ressources sont limitées.
Alors que les grands modèles de langage continuent de se développer, des défis subsistent, notamment en termes de coût d'inférence et d'impact environnemental. Microsoft a récemment présenté BitNet.cpp, un cadre open source qui optimise l'inférence des LLMs quantifiés à 1 bit, réduisant ainsi leur empreinte carbone. Cette innovation souligne l'importance de la durabilité dans l'évolution des LLMs, alors que la taille et la complexité des modèles ne cessent d'augmenter. Par ailleurs, l'intégration des LLMs dans des domaines tels que le diagnostic médical reste à affiner, l'étude menée par UVA Health indiquant que si les LLMs peuvent surpasser les médecins dans certaines tâches, leur intégration n'a pas encore significativement amélioré les performances diagnostiques globales.
L'architecture transformer, dont dérivent tous les LLM modernes, repose sur deux briques fondamentales. La première est le mécanisme d'auto-attention qui permet au modèle de calculer, pour chaque position du texte, une combinaison pondérée des représentations des autres positions. Cette opération est intrinsèquement parallélisable, ce qui explique pourquoi les transformers ont supplanté les architectures récurrentes (RNN, LSTM) qui dominaient le NLP jusqu'en 2017. La seconde brique est l'empilement de dizaines de couches identiques de transformer (typiquement entre 32 et 96 dans les modèles de pointe), chacune apportant un raffinement de la représentation.
Les LLM contemporains se déclinent en plusieurs variantes architecturales :
OpenAI reste le leader perçu du marché avec ChatGPT, GPT-4o, GPT-4o mini et la famille des modèles de raisonnement o1/o3. La société, valorisée plusieurs centaines de milliards de dollars en 2026, est financée principalement par Microsoft et SoftBank. Sa stratégie commerciale combine API (paiement au token), produit grand public (ChatGPT Plus à 20 $/mois) et entreprise (ChatGPT Enterprise, Azure OpenAI Service). OpenAI a élargi son périmètre avec OAI-SearchBot, son crawler de recherche, et SearchGPT.
Anthropic, fondée en 2021 par des anciens d'OpenAI dont Dario et Daniela Amodei, a fait de la sécurité son axe différenciant. Sa famille Claude (Haiku, Sonnet, Opus) est particulièrement appréciée pour la rédaction, le code et le raisonnement long-contexte. Anthropic est financée par Amazon, Google et la SoftBank. En mai 2026, Anthropic a confirmé louer une fraction de la capacité de Colossus 1 de xAI pour environ 1,25 milliard de dollars par mois, illustrant la concentration des ressources de calcul.
Google DeepMind consolide depuis 2023 ses activités IA sous la marque Gemini. La famille Gemini (Nano, Flash, Pro, Ultra, puis Gemini 2.0 Flash en décembre 2024) est intégrée au moteur de recherche (AI Overviews) et à la suite Workspace. Google bénéficie d'un avantage structurel par son contrôle des données d'entraînement (Web, YouTube, Books) et de son infrastructure TPU.
Meta a fait le pari du weights open avec la famille Llama (Llama 1 en février 2023, Llama 2 en juillet 2023, Llama 3 en avril 2024, Llama 3.1 405B en juillet 2024). Cette stratégie a démocratisé l'accès aux modèles de fondation et nourri un écosystème de modèles dérivés (Vicuna, Tulu, fine-tunes sectoriels). Meta a néanmoins refusé en juillet 2025 de signer le code de bonnes pratiques GPAI européen et a suspendu temporairement la sortie de Llama 3 multimodal en Europe.
Mistral AI, fondée à Paris en avril 2023 par Arthur Mensch, Guillaume Lample et Timothée Lacroix, s'est imposée comme le champion européen. Sa stratégie hybride combine modèles ouverts (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) et modèles propriétaires (Mistral Large 2, Pixtral Large). Mistral a signé le code de bonnes pratiques GPAI et noué des partenariats stratégiques avec NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini et SAP.
En Chine, Alibaba (famille Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) et surtout DeepSeek ont rattrapé puis défié les laboratoires américains. DeepSeek-V3 a stupéfié la communauté en janvier 2025 par sa qualité à un coût d'entraînement ~30 fois inférieur à celui des concurrents occidentaux. DeepSeek-R1, sorti dans la foulée et mis à jour en juin 2025 (R1-0528), a déclenché une chute boursière temporaire de NVIDIA en remettant en question la prime aux infrastructures démesurées.
D'autres acteurs jouent des rôles spécialisés : xAI (Grok, infrastructure Colossus), Cohere (modèles entreprise multilingues, Aya 23), AI2 (Tülu 3 405B, modèles entièrement open), Aleph Alpha (Pharia-1-LLM allemand), Black Forest Labs (FLUX-1 pour le text-to-image), LightOn (Paradigm pour l'entreprise), Hugging Face (hub modèles, SmolLM2), OpenEuroLLM (consortium européen open).
Le tableau des LLM de pointe en 2026 se compose d'environ une douzaine de familles, chacune avec ses tailles et variantes :
L'entraînement d'un LLM de pointe mobilise des ressources considérables. Pour GPT-4, les estimations publiques évoquent un budget de l'ordre de 100 millions de dollars et plusieurs dizaines de milliers de GPU H100 pendant trois mois. Llama 3.1 405B a nécessité 16 000 H100 et environ 30 millions d'heures GPU. Mistral Large 2 et Mixtral, à l'autre extrême du spectre européen, ont été entraînés avec des budgets significativement plus modestes, démontrant qu'il est possible d'atteindre des performances compétitives à effort réduit grâce à un travail soigné sur les données.
Les scaling laws formalisées par OpenAI puis affinées par DeepMind (Chinchilla, 2022) ont longtemps dicté la dynamique : la qualité d'un modèle progresse de façon prévisible avec le produit du nombre de paramètres et de la quantité de données d'entraînement, à condition d'équilibrer les deux. Cette équation a été remise en cause à la fin de 2024 : l'inflation des budgets ne se traduit plus par des gains spectaculaires sur les benchmarks ouverts, et l'attention s'est déplacée vers d'autres dimensions - qualité des données, raisonnement post-entraînement, agents, multimodalité.
L'infrastructure de calcul est devenue un enjeu géopolitique majeur. NVIDIA, par sa quasi-exclusivité sur les GPU H100/H200/B200, capture l'essentiel de la valeur. Les contrôles à l'export américains restreignent les ventes vers la Chine, ce qui a notamment poussé DeepSeek et Alibaba à optimiser leurs entraînements pour des puces dégradées (H800). xAI a construit en 2024 le data center Colossus de Memphis, intégrant 100 000 H100 puis 200 000 H100/H200, en moins d'un an - un record industriel.
Les LLM modernes maîtrisent un large éventail de tâches : rédaction, résumé, traduction, génération de code, dialogue, extraction d'information, classification, traitement de documents structurés et non structurés. Ils sont devenus des composants standards dans de nombreuses applications - moteurs de recherche conversationnels, assistants de codage (Copilot, Cursor), agents juridiques et médicaux, systèmes de support client, outils de productivité Office et Workspace.
Leurs limites sont également bien documentées. Les LLM hallucinent - ils produisent du contenu plausible mais factuellement faux - surtout sur les sujets de niche, les chiffres précis et les références bibliographiques. Ils manquent de robustesse face aux attaques adversariales (prompt injection, jailbreak), comme l'a démontré l'étude de l'EPFL en décembre 2024 sur les limites des LLM face aux attaques adaptatives. Ils peuvent être manipulés pour modifier les opinions des utilisateurs (étude EPFL d'avril 2024). Ils consomment de l'énergie et de l'eau de manière significative - sujet de plus en plus surveillé par les régulateurs et les actionnaires. Leur biais reflète celui des corpus d'entraînement, principalement anglophones et nord-occidentaux.
Le clivage entre LLM ouverts et fermés structure le débat depuis 2023. Les partisans des modèles ouverts - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - invoquent la souveraineté technologique, la possibilité d'audit indépendant, la diffusion académique et la résilience industrielle. Leurs opposants - Anthropic, OpenAI sur certains aspects - pointent les risques de prolifération d'usages malveillants (bio-terrorisme, désinformation à grande échelle, fraude) et l'impossibilité de retirer un modèle une fois publié.
L'AI Act tranche partiellement la question en accordant des exemptions partielles aux modèles dont les paramètres, l'architecture et les informations d'usage sont publiés. Ces exemptions ne s'appliquent pas aux modèles à risque systémique (10²⁵ FLOPS d'entraînement). En 2026, l'écosystème open source est dominé par Llama, Mistral, DeepSeek et Qwen, qui couvrent l'essentiel des cas d'usage entreprise et académique sans dépendre de l'API d'un fournisseur unique.
Au-delà des modèles généralistes, l'écosystème se diversifie en modèles verticaux. Dans le médical : H-optimus-0 de Bioptimus pour le diagnostic médical assisté, Pharia-1-LLM d'Aleph Alpha en allemand, des fine-tunes spécifiques pour la radiologie et l'oncologie. Dans le juridique : assistants Lefebvre Dalloz-Barreau de Paris, applications Talan-Mutuelle Générale. Dans le code : Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. Dans la finance : modèles internes BNP Paribas, Crédit Agricole, JPMorgan. Le mouvement des petits modèles efficaces (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - vise les déploiements embarqués (téléphones, voitures, IoT) avec une qualité acceptable à coût d'inférence très réduit.
L'année 2025 a vu émerger les agents IA comme nouveau paradigme d'usage des LLM. Plutôt que de répondre à une requête isolée, l'agent enchaîne des actions (appels d'outils, consultations Web, écriture de fichiers, exécution de code) pour résoudre une tâche complexe. Gemini 2.0 Flash a été présenté en décembre 2024 comme le modèle qui ouvre la voie à cette nouvelle famille de produits. AI Decision Matrix d'AI Builders fournit un cadre d'évaluation comparative pour les responsables IT confrontés à la profusion de solutions.
Plusieurs dynamiques à surveiller dans les 18 prochains mois :
L'évolution des LLM ne se résume plus à une course aux paramètres. Les acteurs gagnants combineront qualité des données, post-entraînement par renforcement, infrastructure d'inférence maîtrisée, stratégie de licence cohérente avec leur marché cible, et conformité réglementaire. C'est désormais un sujet industriel, géopolitique et juridique autant que scientifique.
Un LLM est un réseau de neurones de très grande taille - de plusieurs milliards à plusieurs centaines de milliards de paramètres - basé sur l'architecture transformer. Il est entraîné à prédire la prochaine unité (token) d'un texte à partir de centaines de milliards à plusieurs milliers de milliards de tokens. De cette tâche simple émergent des capacités complexes : dialogue, raisonnement, génération de code, traduction.
Un modèle de fondation est un modèle d'IA réutilisable comme base pour de nombreuses applications spécialisées via fine-tuning, RAG ou prompt engineering. Un LLM est un type de modèle de fondation spécialisé sur le langage. Mais le terme s'étend aussi aux modèles multimodaux (image, audio, vidéo) qui partagent la même logique architecturale et économique.
Sur les benchmarks publics : GPT-4o et o1/o3 (OpenAI), Claude 3.5 Sonnet et Claude 3 Opus (Anthropic), Gemini 2.0 Flash et Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 et DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Aucun ne domine sur toutes les dimensions ; le choix dépend du cas d'usage (raisonnement, latence, coût, langues, multimodalité).
Pour les modèles dense de plus de 70 milliards de paramètres, les budgets vont de 5 à 100 millions de dollars selon la taille et l'efficacité. GPT-4 est estimé à ~100 M$, Llama 3.1 405B à ~50 M$, DeepSeek-V3 à ~5 M$ (record d'efficacité). Ces chiffres ne couvrent que l'entraînement final ; en incluant l'expérimentation préalable et le post-entraînement, les coûts complets sont 3 à 10 fois supérieurs.
C'est une architecture où le réseau est divisé en plusieurs sous-réseaux experts spécialisés, et un routeur sélectionne quelques experts à activer pour chaque token. Cela permet d'augmenter le nombre total de paramètres sans augmenter proportionnellement le coût d'inférence. Mixtral 8x7B, DeepSeek-V3 et GPT-4o (présumé) utilisent cette architecture.
DeepSeek-V3 puis DeepSeek-R1 ont démontré qu'il était possible d'atteindre le niveau des meilleurs modèles propriétaires américains avec un budget d'entraînement environ 30 fois inférieur et en open source. Cela a remis en question la prime aux infrastructures massives et provoqué une chute boursière temporaire de NVIDIA, illustrant la fragilité de la valorisation actuelle de l'écosystème IA.
Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) est le leader européen. Aleph Alpha développe Pharia-1-LLM en allemand. LightOn propose Paradigm pour l'entreprise. Black Forest Labs édite FLUX-1 pour le text-to-image. OpenEuroLLM est un consortium académique européen. Le projet vise à constituer une alternative souveraine aux modèles américains et chinois.
Cela dépend du cas d'usage. Le propriétaire (OpenAI, Anthropic, Gemini) offre la simplicité d'une API gérée et l'accès aux modèles de pointe. L'open source (Llama, Mistral, DeepSeek) permet l'hébergement on-premise, la souveraineté des données, l'audit du modèle et l'évitement du verrouillage fournisseur - au prix d'un coût d'infrastructure et d'expertise interne. Pour des usages réglementés (santé, finance, défense), l'open source hébergé devient souvent la norme.
Un modèle de raisonnement produit explicitement une chaîne de pensée (chain-of-thought) avant de répondre, ce qui améliore drastiquement ses performances sur les mathématiques compétitives, la logique et la programmation. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 et Gemini Thinking sont les principaux représentants. Le coût d'inférence augmente (latence supérieure) mais la qualité aussi.
Hallucinations (génération de contenu factuellement faux), prompt injection et jailbreak (contournement des garde-fous), biais (reflet du corpus d'entraînement), manipulation de l'opinion (étude EPFL 2024), consommation énergétique et hydrique, fuite de données privées, dépendance industrielle aux fournisseurs de modèles et de GPU. L'AI Act répond à plusieurs de ces risques pour les modèles à risque systémique.
Par des benchmarks publics (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), par des évaluations humaines en aveugle (Chatbot Arena), et par des tests internes adaptés au cas d'usage. Les benchmarks ouverts saturent rapidement : un modèle qui dépasse 90 % sur MMLU n'est plus distinguable des autres. L'évaluation par tâche réelle (rédaction, code production, raisonnement long) reste indispensable.
Les agents IA - systèmes capables d'enchaîner des actions complexes en autonomie - sont le grand chantier 2025-2027. Au-delà, l'industrie travaille sur la fiabilité à long terme (alignement, sécurité), l'efficacité d'inférence, la convergence multimodale native, l'apprentissage en continu et la souveraineté infrastructurelle. La question des données d'entraînement reste structurante : les corpus web publics commencent à saturer, ouvrant la voie à des données synthétiques et à des partenariats éditoriaux.
89 articles liés à ce sujet
À l’occasion de la World Artificial Intelligence Conference (WAIC) 2025, Alibaba Cloud a présenté plusieurs démonstr...
Alors que les spéculations allaient bon train autour du prochain lancement de DeepSeek R2, c'est finalement une mise à jour du mod&egrav...
Les grands modèles de langage (LLMs) s’imposent peu à peu dans tous les secteurs, y compris celui, hautement stratégique, d...
Tout juste un mois après avoir introduit son modèle de raisonnement TurboS, le conglomérat chinois Tencent dévoile celui &...
Après avoir publié en décembre dernier sa famille de modèles OLMO 2, l’Allen Institute for Artificial Intelligence (AI2) poursuit son engagement enver...
En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a l...
L’avancement des LLMs repose souvent sur leur capacité à traiter des volumes croissants de données dans des contextes plus longs et plus complexes. Av...
Après avoir suscité l’attention en décembre dernier avec l'annonce de DeepSeek-V3, son modèle open source éponyme, la start-up chinoise DeepSeek est v...
LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders europée...
C'est sous la licence MIT, l'une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembr...
Une récente étude menée par des chercheurs de l’École Polytechnique fédérale de Lausanne (EPFL), présentée lors de l’atelier sur la sécurité de l’IA à...
Les assistants applicatifs, comme Google Gemini ou Notion AI, incarnent une nouvelle ère de productivité. Ils ne se contentent plus de prédire des rés...