Red Hat AI Inference Server: hacia una estandarización abierta de la inferencia de IA en empresas

Red Hat AI Inference Server: hacia una estandarización abierta de la inferencia de IA en empresas

TLDR : Red Hat ha lanzado el Red Hat AI Inference Server, una solución de código abierto para simplificar y mejorar la ejecución de modelos de IA en entornos de nube híbrida. Dotado de herramientas de optimización avanzadas, ofrece flexibilidad de ejecución en cualquier tipo de acelerador de IA y en cualquier nube, contribuyendo a la democratización de la IA generativa en empresas.

En el Red Hat Summit 2025, Red Hat anunció el lanzamiento de Red Hat AI Inference Server, un nuevo componente de la gama Red Hat AI. Diseñado para entornos de nube híbridos, esta solución de código abierto busca simplificar la ejecución de modelos de IA generativa al tiempo que mejora su rendimiento operativo.
Un servidor de inferencia actúa como una interfaz entre las aplicaciones de IA y los grandes modelos de lenguaje (LLMs), facilitando la generación de respuestas a partir de datos de entrada. A medida que los despliegues de LLMs se multiplican en producción, la fase de inferencia se convierte en un asunto crítico, tanto desde el punto de vista técnico como económico.
Basado en el proyecto comunitario vLLM, iniciado por la Universidad de Berkeley, Red Hat AI Inference Server incorpora herramientas de optimización avanzadas, incluidas las de Neural Magic, que permiten reducir el consumo energético, acelerar los cálculos y mejorar la rentabilidad. Disponible en versión contenedorizada o integrado en las soluciones RHEL AI y Red Hat OpenShift AI, ofrece gran flexibilidad al ejecutarse en cualquier tipo de acelerador de IA y en cualquier nube.
Entre las principales características anunciadas:
  • Una compresión inteligente de modelos para reducir el tamaño sin sacrificar la precisión;
  • Un repositorio optimizado de modelos validados, accesible a través de la página Red Hat AI en Hugging Face;
  • Una interoperabilidad con plataformas de terceros, incluyendo Linux y Kubernetes fuera del entorno de Red Hat;
  • Un soporte empresarial heredado de la experiencia de Red Hat en la industrialización de tecnologías de código abierto.
La solución es compatible con muchos modelos de lenguaje de primer nivel (Gemma, Llama, Mistral, Phi), al tiempo que integra las últimas evoluciones del lenguaje vLLM: procesamiento multi-GPU, batching continuo, contexto extendido, e inferencia de alto rendimiento.
Con este anuncio, Red Hat reafirma su compromiso de hacer de vLLM un estándar abierto para la inferencia de IA, favoreciendo una mayor interoperabilidad y reforzando la soberanía tecnológica de las empresas. Al atender las crecientes necesidades de inferencia industrial, contribuye activamente a la democratización de la IA generativa.
  • Herramientas de compresión de modelos que permiten reducir su tamaño y su huella energética sin pérdida de precisión;
  • Un repositorio optimizado alojado en la página Red Hat AI en Hugging Face;
  • Un soporte empresarial y una interoperabilidad con plataformas de terceros, incluyendo Linux y Kubernetes fuera de Red Hat.

Hacia una democratización de la IA generativa

La solución soporta de manera nativa varios modelos de lenguaje de primer nivel, incluyendo Gemma, Llama, Mistral y Phi, y explota las últimas funcionalidades de vLLM: inferencia de alto rendimiento, procesamiento multi-GPU, batching continuo, y contexto de entrada extendido.
Red Hat pretende así contribuir a hacer del lenguaje vLLM un estándar de inferencia abierto para la IA generativa en empresas, independientemente del modelo de IA, del acelerador subyacente y del entorno de despliegue.

Para entender mejor

¿Qué es el proyecto vLLM y por qué es importante para la inferencia de IA?

El proyecto vLLM, iniciado por la Universidad de Berkeley, es una tecnología avanzada para la optimización de modelos de lenguaje. Mejora el rendimiento operativo de los modelos de IA mediante innovaciones como el procesamiento multi-GPU y la inferencia de alto rendimiento, reduciendo así el consumo de energía y aumentando la rentabilidad.

¿Cómo puede la compresión inteligente de modelos de IA reducir el consumo de energía sin comprometer la precisión?

La compresión inteligente reduce el tamaño de los modelos de IA al eliminar redundancias y optimizar los cálculos, lo que disminuye la necesidad de recursos y preserva la precisión mediante algoritmos avanzados de optimización.