Em resumo : Red Hat lançou o Red Hat AI Inference Server, uma solução open source para simplificar e melhorar a execução de modelos de IA em ambientes de nuvem híbrida. Dotado de ferramentas de otimização avançadas, ele oferece flexibilidade de execução em qualquer tipo de acelerador de IA e em qualquer nuvem, contribuindo para a democratização da IA generativa nas empresas.
Durante o Red Hat Summit 2025, a Red Hat anunciou o lançamento do Red Hat AI Inference Server, um novo componente da gama Red Hat AI. Projetada para ambientes de nuvem híbrida, esta solução open source visa simplificar a execução de modelos de IA generativa, ao mesmo tempo em que melhora seu desempenho operacional. Um servidor de inferência atua como uma interface entre aplicações de IA e grandes modelos de linguagem (LLMs), facilitando a geração de respostas a partir de dados de entrada. À medida que os LLMs são cada vez mais implantados em produção, a fase de inferência torna-se um desafio crítico, tanto do ponto de vista técnico quanto econômico.
Baseado no projeto comunitário vLLM, iniciado pela Universidade de
Berkeley, o
Red Hat AI Inference Server incorpora ferramentas avançadas de otimização, incluindo as da Neural Magic, permitindo uma redução no consumo de
energia, aceleração de cálculos e melhor rentabilidade. Disponível em versão containerizada ou integrada às soluções RHEL AI e Red Hat OpenShift AI, oferece grande flexibilidade, executando-se em qualquer tipo de acelerador de IA e em qualquer nuvem.
Entre as principais funcionalidades anunciadas:
A solução suporta muitos modelos de linguagem de ponta (Gemma, Llama, Mistral, Phi), ao mesmo tempo em que integra as últimas evoluções do vLLM: processamento multi-GPU, batching contínuo, contexto expandido e inferência em alta velocidade.
Com este anúncio, a
Red Hat reafirma seu compromisso em fazer do vLLM um padrão aberto para inferência de IA, promovendo uma maior interoperabilidade e reforçando a soberania tecnológica das empresas. Ao atender às crescentes necessidades de inferência industrial, contribui ativamente para a democratização da IA generativa.
Em direção à democratização da IA generativa
A solução suporta nativamente vários modelos de linguagem de ponta, incluindo Gemma, Llama, Mistral e Phi, e aproveita as últimas funcionalidades do vLLM: inferência em alta velocidade, processamento multi-GPU, batching contínuo e contexto de entrada expandido.
A
Red Hat pretende assim contribuir para fazer do vLLM um padrão de inferência aberto para IA generativa nas empresas, independentemente do modelo de IA, do acelerador subjacente e do ambiente de implantação.
Para entender melhor
O que é o projeto vLLM e por que é importante para a inferência de IA?
O projeto vLLM, iniciado pela Universidade de Berkeley, é uma tecnologia avançada para otimização de modelos de linguagem. Ele melhora o desempenho operacional dos modelos de IA através de inovações como o processamento multi-GPU e a inferência de alta capacidade, reduzindo assim o consumo de energia e aumentando a rentabilidade.
Como a compressão inteligente de modelos de IA pode reduzir o consumo de energia sem comprometer a precisão?
A compressão inteligente reduz o tamanho dos modelos de IA eliminando redundâncias e otimizando os cálculos, o que diminui as necessidades de recursos enquanto preserva a precisão através de algoritmos avançados de otimização.