بينما تصبح تحسين أنظمة RAG (Retrieval-Augmented Generation) أولوية استراتيجية للشركات التي تسعى إلى استغلال مجموعاتها الداخلية بشكل فعال، تكشف LightOn النقاب عن GTE-ModernColBERT، وهو نموذج متعدد المتجهات ذو تفاعل متأخر مصمم لإعادة تعريف ممارسات البحث عن المعلومات في البيئات المعقدة والمتخصصة.
تسيطر النماذج ذات المتجه الواحد اليوم على قنوات البحث عن المعلومات، بفضل سهولة تنفيذها وفعاليتها في المهام العامة. ومع ذلك، تصل هذه النهج إلى حدودها أمام المحتويات الأكثر تعقيدًا، مثل السلاسل الطويلة، المفردات التقنية، أو الصياغات الغامضة التي غالبًا ما تفلت من قدرتها على التعميم.
هذا هو بالضبط المجال الذي يقدم فيه GTE-ModernColBERT تقدمًا كبيرًا. تسمح له بنيته ذات التفاعل المتأخر بالحفاظ على دقة عالية في التمثيلات المرمزة. بدلاً من تكثيف الوثيقة في متجه واحد، يحافظ على توزيع متجهات مفصل، مما يضمن تطابقًا أكثر دقة بين الاستعلام والأجزاء ذات الصلة من الوثيقة. يتضح أن هذا النهج فعال بشكل خاص للمنظمات التي تتعامل مع مستندات متخصصة، قانونية، علمية، وتنظيمية.
يعتمد GTE-ModernColBERT على ModernBERT، نسخة محسنة من BERT (Bidirectional Encoder Representations from Transformers) الشهير، الذي كشفته LightOn في ديسمبر الماضي. مصمم لتلبية متطلبات الشركات الأوروبية في إدارة البيانات والامتثال التنظيمي، يمكنه معالجة المستندات حتى 8192 رمزًا، مع ضمان تقليل التأخر وتحكم أفضل في التكاليف.
يعتمد أيضًا على مكتبة PyLate مفتوحة المصدر، التي طورتها LightOn، والتي تحسن تدريب نماذج ColBERT وتبسط دمجها في قنوات استرجاع المعلومات. تسمح نهجه المبسط للباحثين والمهندسين بالحصول على تكرار سريع، مع تنفيذ محسن في 80 سطرًا من التعليمات البرمجية فقط.

الأداء

على مستوى الأداء، يعد GTE-ModernColBERT النموذج الأول الذي يتفوق على ColBERT-small في معيار BEIR، أحد المعايير الأكثر صرامة في المجال. يقيم 18 مجموعة بيانات غير متجانسة، تغطي استخدامات متنوعة مثل البحث الطبي الحيوي، الأسئلة والإجابات المفتوحة، تحليل الحجج، المنتديات المجتمعية، وقواعد المعرفة العلمية. مع متوسط ​​درجة 54.89 مقابل 53.79 لـ ColBERT-small، يقدم GTE-ModernColBERT قدرة أفضل على التعميم بين المجالات، وهي ميزة رئيسية للبيئات الوثائقية المختلطة وغير المنظمة.
بفضل توافقه المحسن مع قواعد البيانات المتجهية الرئيسية مثل QDrant، LanceDB، Weaviate وVespa، يسهل تنفيذ أنظمة RAG القوية لتطبيقات مثل التحليل القانوني، التوثيق التقني، دعم العملاء أو البحث العلمي.
جرب GTE-ModernColBERT على Hugging Face

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

لتحسين الفهم