Red Hat AI Inference Server: em direção a uma padronização aberta da inferência de IA nas empresas

Em resumo : Red Hat lançou o Red Hat AI Inference Server, uma solução open source para simplificar e melhorar a execução de modelos de IA em ambientes de nuvem híbrida. Dotado de ferramentas de otimização avançadas, ele oferece flexibilidade de execução em qualquer tipo de acelerador de IA e em qualquer nuvem, contribuindo para a democratização da IA generativa nas empresas.

Durante o Red Hat Summit 2025, a Red Hat anunciou o lançamento do Red Hat AI Inference Server, um novo componente da gama Red Hat AI. Projetada para ambientes de nuvem híbrida, esta solução open source visa simplificar a execução de modelos de IA generativa, ao mesmo tempo em que melhora seu desempenho operacional.

Um servidor de inferência atua como uma interface entre aplicações de IA e grandes modelos de linguagem (LLMs), facilitando a geração de respostas a partir de dados de entrada. À medida que os LLMs são cada vez mais implantados em produção, a fase de inferência torna-se um desafio crítico, tanto do ponto de vista técnico quanto econômico.

Baseado no projeto comunitário vLLM, iniciado pela Universidade de Berkeley, o Red Hat AI Inference Server incorpora ferramentas avançadas de otimização, incluindo as da Neural Magic, permitindo uma redução no consumo de energia, aceleração de cálculos e melhor rentabilidade. Disponível em versão containerizada ou integrada às soluções RHEL AI e Red Hat OpenShift AI, oferece grande flexibilidade, executando-se em qualquer tipo de acelerador de IA e em qualquer nuvem.

Entre as principais funcionalidades anunciadas:

Uma compressão inteligente dos modelos para reduzir o tamanho sem sacrificar a precisão;
Um repositório otimizado de modelos validados, acessível através da página Red Hat AI no Hugging Face ;
Uma interoperabilidade com plataformas de terceiros, incluindo Linux e Kubernetes fora do ambiente Red Hat;
Um suporte empresarial herdado da experiência da Red Hat na industrialização de tecnologias open source.

A solução suporta muitos modelos de linguagem de ponta (Gemma, Llama, Mistral, Phi), ao mesmo tempo em que integra as últimas evoluções do vLLM: processamento multi-GPU, batching contínuo, contexto expandido e inferência em alta velocidade.

Com este anúncio, a Red Hat reafirma seu compromisso em fazer do vLLM um padrão aberto para inferência de IA, promovendo uma maior interoperabilidade e reforçando a soberania tecnológica das empresas. Ao atender às crescentes necessidades de inferência industrial, contribui ativamente para a democratização da IA generativa.

Ferramentas de compressão de modelos permitindo reduzir seu tamanho e pegada energética sem perda de precisão;
Um repositório otimizado hospedado na página Red Hat AI no Hugging Face ;
Suporte empresarial e uma interoperabilidade com plataformas de terceiros, incluindo Linux e Kubernetes fora da Red Hat.

Em direção à democratização da IA generativa

A solução suporta nativamente vários modelos de linguagem de ponta, incluindo Gemma, Llama, Mistral e Phi, e aproveita as últimas funcionalidades do vLLM: inferência em alta velocidade, processamento multi-GPU, batching contínuo e contexto de entrada expandido.

A Red Hat pretende assim contribuir para fazer do vLLM um padrão de inferência aberto para IA generativa nas empresas, independentemente do modelo de IA, do acelerador subjacente e do ambiente de implantação.

Traduzido de Red Hat AI Inference Server : vers une standardisation ouverte de l’inférence IA en entreprise

Para entender melhor

O que é o projeto vLLM e por que é importante para a inferência de IA?

O projeto vLLM, iniciado pela Universidade de Berkeley, é uma tecnologia avançada para otimização de modelos de linguagem. Ele melhora o desempenho operacional dos modelos de IA através de inovações como o processamento multi-GPU e a inferência de alta capacidade, reduzindo assim o consumo de energia e aumentando a rentabilidade.

Como a compressão inteligente de modelos de IA pode reduzir o consumo de energia sem comprometer a precisão?

A compressão inteligente reduz o tamanho dos modelos de IA eliminando redundâncias e otimizando os cálculos, o que diminui as necessidades de recursos enquanto preserva a precisão através de algoritmos avançados de otimização.