Red Hat AI Çıkarım Sunucusu: Kurumsal AI Çıkarımı için Açık Standartlaşma Yolunda

Kısa : Red Hat, hibrit bulut ortamlarında AI modellerinin çalıştırılmasını basitleştirmek ve iyileştirmek için açık kaynaklı bir çözüm olan Red Hat AI Çıkarım Sunucusu'nu başlattı. İleri düzey optimizasyon araçlarıyla donatılmış bu çözüm, her tür AI hızlandırıcısında ve herhangi bir bulutta esnek bir şekilde çalışarak kurumsal jeneratif AI'nın demokratikleşmesine katkıda bulunuyor.

Red Hat Summit 2025 etkinliğinde, Red Hat, Red Hat AI serisinin yeni bir bileşeni olan Red Hat AI Çıkarım Sunucusu'nun lansmanını duyurdu. Hibrit bulut ortamları için tasarlanan bu açık kaynaklı çözüm, jeneratif AI modellerinin çalıştırılmasını basitleştirirken operasyonel performanslarını artırmayı amaçlıyor.

Bir çıkarım sunucusu, AI uygulamaları ile büyük dil modelleri (LLM'ler) arasında bir arayüz görevi görerek giriş verilerinden yanıtlar üretilmesini kolaylaştırır. LLM'lerin üretimdeki dağıtımları artarken, çıkarım aşaması hem teknik hem de ekonomik açıdan kritik bir sorun haline geliyor.

Berkeley Üniversitesi tarafından başlatılan topluluk projesi vLLM'e dayanan Red Hat AI Çıkarım Sunucusu, Neural Magic gibi ileri düzey optimizasyon araçları barındırarak enerji tüketimini azaltma, hesaplamaları hızlandırma ve daha iyi kârlılık sağlama imkanı sunuyor. Konteynerleştirilmiş sürümde veya RHEL AI ve Red Hat OpenShift AI çözümlerine entegre olarak sunulan bu çözüm, her türlü AI hızlandırıcısında ve herhangi bir bulutta çalışarak büyük esneklik sunuyor.

Başlıca duyurulan özellikler arasında:

Doğruluğu feda etmeden boyutu azaltmak için akıllı model sıkıştırma;
Red Hat AI Hugging Face sayfası üzerinden erişilebilen optimize edilmiş doğrulanmış modeller deposu;
Red Hat dışındaki ortamlarda Linux ve Kubernetes de dahil olmak üzere üçüncü taraf platformlarla birlikte çalışabilirlik;
Red Hat'in açık kaynak teknolojilerini sanayileştirme konusundaki deneyiminden miras alınan kurumsal destek.

Çözüm, Gemma, Llama, Mistral, Phi gibi birçok öncü dil modelini desteklerken, vLLM dilinin en son gelişmelerini entegre ediyor: çoklu GPU işleme, sürekli toplama, genişletilmiş bağlam ve yüksek hızlı çıkarım.

Bu duyuru ile Red Hat, vLLM'i AI çıkarımı için açık bir standart yapma taahhüdünü yeniden teyit ediyor. Kurumsal teknolojik egemenliği güçlendirirken, sanayileşmiş çıkarım gereksinimlerine hitap ederek jeneratif AI'nın demokratikleşmesine aktif olarak katkıda bulunuyor.

Doğruluğu kaybetmeden model boyutunu ve enerji tüketimini azaltan sıkıştırma araçları;
Red Hat AI Hugging Face sayfasında barındırılan optimize edilmiş bir depo;
Red Hat dışındaki ortamlarda Linux ve Kubernetes dahil olmak üzere üçüncü taraf platformlarla birlikte çalışabilirlik ve kurumsal destek.

Jeneratif AI'nın Demokratikleşmesine Doğru

Çözüm, Gemma, Llama, Mistral ve Phi gibi önde gelen dil modellerini doğal olarak destekler ve vLLM'in en son özelliklerini kullanır: yüksek hızlı çıkarım, çoklu GPU işleme, sürekli toplama ve genişletilmiş giriş bağlamı.

Red Hat, böylece vLLM dilini kurumsal jeneratif AI çıkarımı için açık bir standart yapmaya katkıda bulunmayı amaçlıyor ve bu, AI modelinden, altında yatan hızlandırıcıdan ve dağıtım ortamından bağımsız olarak gerçekleşiyor.

Çeviri kaynağı Red Hat AI Inference Server : vers une standardisation ouverte de l’inférence IA en entreprise

Daha iyi anlamak

vLLM projesi nedir ve AI çıkarsaması için neden önemlidir?

Berkeley Üniversitesi tarafından başlatılan vLLM projesi, dil modellerini optimize etmek için gelişmiş bir teknolojidir. Çoklu GPU işleme ve yüksek hızlı çıkarım gibi yeniliklerle AI modellerinin operasyonel performansını artırır, böylece enerji tüketimini düşürür ve karlılığı artırır.

AI modellerinin akıllı sıkıştırılması nasıl enerji tüketimini azaltabilir ve doğruluğu nasıl koruyabilir?

Akıllı sıkıştırma, AI modellerinin boyutunu, gereksiz tekrarı ortadan kaldırarak ve hesaplamaları optimize ederek azaltır, bu da kaynak ihtiyaçlarını azaltırken gelişmiş optimizasyon algoritmalarıyla doğruluğu korur.