İşletmelerin kendi dahili veri setlerini etkin bir şekilde kullanmayı hedefledikleri için RAG (Retrieval-Augmented Generation) sistemlerinin optimizasyonu stratejik bir öncelik haline gelirken, LightOn, karmaşık ve uzmanlaşmış ortamlarda bilgi arama uygulamalarını yeniden tanımlamak amacıyla tasarlanan geç etkileşimli çok vektörlü bir model olan GTE-ModernColBERT'i tanıttı.
Tek vektörlü modeller, basit uygulama ve genel görevlerdeki etkinlikleri nedeniyle bugün bilgi arama süreçlerinde hakim durumdadırlar. Ancak, bu yaklaşım, daha karmaşık içeriklerle, uzun diziler, teknik kelime dağarcıkları veya belirsiz ifadelerle karşılaştığında genel yeteneklerinin sınırlarına ulaşır.
Tam da bu noktada GTE-ModernColBERT önemli bir ilerleme sunmaktadır. Geç etkileşim mimarisi, tokenize edilmiş temsilciliklerde ince bir ayrıntıyı korumasını sağlar. Bir belgeyi tek bir vektörde yoğunlaştırmak yerine, detaylı bir vektör dağılımı sürdürerek, sorgu ve belgenin ilgili bölümleri arasında daha hassas bir eşleşmeyi garanti eder. Bu yaklaşım, uzmanlaşmış, hukuki, bilimsel ve düzenleyici belgelerle uğraşan kuruluşlar için özellikle etkili olmaktadır.
GTE-ModernColBERT, LightOn tarafından geçen Aralık ayında tanıtılan ünlü BERT'in (Bidirectional Encoder Representations from Transformers) optimize edilmiş bir versiyonu olan ModernBERT üzerine inşa edilmiştir. Avrupa şirketlerinin veri yönetimi ve düzenleyici uyumluluk ihtiyaçlarına yanıt vermek üzere tasarlanmış olup, 8192 token'a kadar belgeleri işleyebilir, düşük gecikme süresi ve maliyetlerin daha iyi kontrol altına alınmasını sağlar.
Ayrıca LightOn tarafından geliştirilen, ColBERT modellerinin eğitimini optimize eden ve bilgi kurtarma süreçlerine entegrasyonunu basitleştiren açık kaynaklı PyLate kütüphanesini kullanır. Minimalist yaklaşımı, araştırmacıların ve mühendislerin yalnızca 80 satır kod ile hızlı bir şekilde yeniden üretilebilirlik sağlamalarına olanak tanır.

Performans 

Performans açısından, GTE-ModernColBERT, alanın en zorlu standartlarından biri olan BEIR benchmark'ında ColBERT-small'u geride bırakan ilk modeldir. Biyomedikal araştırma, açık uçlu soru-cevap, argüman analizi, topluluk forumları ve bilimsel bilgi tabanları gibi çeşitli kullanımları kapsayan 18 heterojen veri setini değerlendirir. 53,79 olan ColBERT-small'a karşı 54,89 ortalama puanla, GTE-ModernColBERT, karışık ve az yapılandırılmış belge ortamları için önemli bir avantaj olan daha iyi bir alanlar arası genelleme yeteneği sunar.
QDrant, LanceDB, Weaviate ve Vespa gibi ana vektör veri tabanları ile optimize edilmiş uyumluluğu sayesinde, hukuki analiz, teknik dokümantasyon, müşteri destek veya bilimsel araştırma gibi uygulamalar için sağlam RAG sistemlerinin uygulanmasını kolaylaştırır.
GTE-ModernColBERT'i Hugging Face'de deneyin

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

Daha iyi anlamak

GTE-ModernColBERT gibi çok vektörlü modeller bağlamında geç etkileşim nedir?

Geç etkileşim, çok vektörlü modellerin tokenleştirilmiş temsillerde ayrıntılı ayrıntıları korumasını sağlayan ve eşleştirme aşamasını geciktiren bir yaklaşımdır. Bu, sorgu ile ilgili belge segmentleri arasında daha hassas bir eşleşme sağlar ve karmaşık koleksiyonlarda aramayı geliştirir.