In kort : Red Hat heeft de Red Hat AI Inference Server gelanceerd, een open source-oplossing om de uitvoering van AI-modellen in hybride cloudomgevingen te vereenvoudigen en te verbeteren. Met geavanceerde optimalisatiehulpmiddelen biedt het flexibiliteit voor uitvoering op elk type AI-versneller en in elke cloud, wat bijdraagt aan de democratisering van generatieve AI in bedrijven.
Tijdens de Red Hat Summit 2025 kondigde Red Hat de lancering aan van de Red Hat AI Inference Server, een nieuwe component van de Red Hat AI-reeks. Ontworpen voor hybride cloudomgevingen, is deze open source-oplossing bedoeld om de uitvoering van generatieve AI-modellen te vereenvoudigen en tegelijkertijd hun operationele prestaties te verbeteren.
Een inferentieserver fungeert als een interface tussen AI-toepassingen en grote taalmodellen (LLM's), waardoor het genereren van antwoorden op basis van invoergegevens wordt vergemakkelijkt. Terwijl de implementaties van LLM's in productie toenemen, wordt de inferentiefase zowel technisch als economisch een kritieke kwestie.
Gebaseerd op het gemeenschapsproject vLLM, geïnitieerd door de Universiteit van Berkeley, bevat de Red Hat AI Inference Server geavanceerde optimalisatiehulpmiddelen, waaronder die van Neural Magic, die energieverbruik verminderen, berekeningen versnellen en de winstgevendheid verbeteren. Beschikbaar in een gecontaineriseerde versie of geïntegreerd in de RHEL AI- en Red Hat OpenShift AI-oplossingen, biedt het grote flexibiliteit door te draaien op elk type AI-versneller en in elke cloud.
Onder de belangrijkste aangekondigde functies:
-
Een slimme compressie van modellen om de grootte te verminderen zonder de nauwkeurigheid te verliezen;
-
-
Interoperabiliteit met externe platforms, waaronder Linux en Kubernetes buiten de Red Hat-omgeving;
-
Een zakelijke ondersteuning geërfd uit Red Hat's ervaring in de industrialisatie van open source-technologieën.
De oplossing ondersteunt vele toonaangevende taalmodellen (Gemma, Llama, Mistral, Phi), terwijl het de nieuwste ontwikkelingen van de vLLM-taal integreert: multi-GPU-verwerking, continue batching, uitgebreide context en hoge snelheid inferentie.
Met deze aankondiging herbevestigt Red Hat zijn inzet om van vLLM een open standaard te maken voor AI-inferentie, waardoor een grotere interoperabiliteit wordt bevorderd en de technologische soevereiniteit van bedrijven wordt versterkt. Door tegemoet te komen aan de groeiende behoeften van industriële inferentie draagt het actief bij aan de democratisering van generatieve AI.
-
Modelcompressiehulpmiddelen die hun grootte en energieverbruik verminderen zonder aan nauwkeurigheid in te boeten;
-
-
Zakelijke ondersteuning en interoperabiliteit met externe platforms, inclusief Linux en Kubernetes buiten Red Hat.
Richting een democratisering van generatieve AI
De oplossing ondersteunt native verschillende toonaangevende taalmodellen, waaronder Gemma, Llama, Mistral en Phi, en maakt gebruik van de nieuwste functies van vLLM: hoge snelheid inferentie, multi-GPU-verwerking, continue batching en uitgebreide invoercontext.
Red Hat wil zo bijdragen aan het maken van de vLLM-taal tot een open inferentiestandaard voor generatieve AI in bedrijven, onafhankelijk van het AI-model, de onderliggende versneller en de implementatie-omgeving.
Beter begrijpen
Wat is het vLLM-project en waarom is het belangrijk voor AI-inferentie?
Het vLLM-project, geïnitieerd door de Universiteit van Berkeley, is een geavanceerde technologie voor het optimaliseren van taalmodellen. Het verbetert de operationele prestaties van AI-modellen door innovaties zoals multi-GPU-verwerking en high-throughput-inferentie, waardoor het energieverbruik wordt verminderd en de winstgevendheid wordt verhoogd.
Hoe kan intelligente compressie van AI-modellen het energieverbruik verminderen zonder de nauwkeurigheid in gevaar te brengen?
Intelligente compressie vermindert de omvang van AI-modellen door redundantie te elimineren en berekeningen te optimaliseren, waardoor de hulpbronnenbehoefte afneemt en de nauwkeurigheid gehandhaafd blijft door geavanceerde optimalisatie-algoritmen.