En bref : Red Hat a lancé le Red Hat AI Inference Server, une solution open source pour simplifier et améliorer l'exécution de modèles d'IA dans les environnements de cloud hybrides. Doté d'outils d'optimisation avancés, il offre une flexibilité d'exécution sur tout type d'accélérateur IA et dans n'importe quel cloud, contribuant à la démocratisation de l'IA générative en entreprise.
À l’occasion du Red Hat Summit 2025, Red Hat a annoncé le lancement de Red Hat AI Inference Server, une nouvelle composante de la gamme Red Hat AI. Conçue pour les environnements de cloud hybrides, cette solution open source vise à simplifier l'exécution de modèles d’IA générative tout en améliorant leur performance opérationnelle.
Un serveur d’inférence agit comme une interface entre les applications d’IA et les grands modèles de langage (LLMs), facilitant la génération de réponses à partir de données d’entrée. Alors que les déploiements de LLMs se multiplient en production, la phase d’inférence devient un enjeu critique, tant sur le plan technique qu’économique.
Reposant sur le projet communautaire vLLM, initié par l’Université de Berkeley, Red Hat AI Inference Server embarque des outils d’optimisation avancés, dont ceux de Neural Magic, permettant une réduction de la consommation énergétique, une accélération des calculs et une meilleure rentabilité. Disponible en version conteneurisée ou intégré aux solutions RHEL AI et Red Hat OpenShift AI, il offre une grande flexibilité en s’exécutant sur tout type d’accélérateur IA et dans n’importe quel cloud.
Parmi les principales fonctionnalités annoncées :
-
Une compression intelligente des modèles pour réduire la taille sans sacrifier la précision ;
-
Un référentiel optimisé de modèles validés, accessible via la page Red Hat AI sur Hugging Face ;
-
Une interopérabilité avec des plateformes tierces, y compris Linux et Kubernetes hors environnement Red Hat ;
-
Un support entreprise hérité de l’expérience de Red Hat dans l’industrialisation de technologies open source.
La solution prend en charge de nombreux modèles de langage de premier plan (Gemma, Llama, Mistral, Phi), tout en intégrant les dernières évolutions du langage vLLM : traitement multi-GPU, batching continu, contexte étendu, et inférence à haut débit.
Avec cette annonce, Red Hat réaffirme son engagement à faire de vLLM un standard ouvert pour l’inférence IA, favorisant une interopérabilité accrue et renforçant la souveraineté technologique des entreprises. En s’adressant aux besoins croissants d’inférence industrielle, il contribue activement à la démocratisation de l’IA générative.
-
Des outils de compression de modèles permettant de réduire leur taille et leur empreinte énergétique sans perte de précision ;
-
Un référentiel optimisé hébergé sur la page Red Hat AI sur Hugging Face ;
-
Un support entreprise et une interopérabilité avec des plateformes tierces, y compris Linux et Kubernetes hors-Red Hat.
Vers une démocratisation de l’IA générative
La solution prend en charge de manière native plusieurs modèles de langage de premier plan, dont Gemma, Llama, Mistral et Phi, et exploite les dernières fonctionnalités de vLLM : inférence à haut débit, traitement multi-GPU, batching continu, et contexte d’entrée étendu.
Red Hat entend ainsi contribuer à faire du langage vLLM un standard d’inférence ouvert pour l’IA générative en entreprise et ce, indépendamment du modèle d’IA, de l’accélérateur sous-jacent et de l’environnement de déploiement.
Pour mieux comprendre (assisté par l'IA)
Qu'est-ce que le projet vLLM et pourquoi est-il important pour l'inférence de l'IA ?
Le projet vLLM, initié par l'Université de Berkeley, est une technologie avancée pour l'optimisation des modèles de langage. Il améliore la performance opérationnelle des modèles d'IA grâce à des innovations telles que le traitement multi-GPU et l'inférence à haut débit, réduisant ainsi la consommation énergétique et augmentant la rentabilité.
Comment la compression intelligente des modèles d'IA peut-elle réduire la consommation énergétique sans compromettre la précision ?
La compression intelligente réduit la taille des modèles d'IA en supprimant les redondances et en optimisant les calculs, ce qui diminue les besoins en ressources tout en préservant la précision des résultats grâce à des algorithmes avancés d'optimisation.