企業が内部資産を効果的に活用するためにRAG (Retrieval-Augmented Generation) システムの最適化が戦略的優先事項となっている中、LightOnはGTE-ModernColBERTを発表し、複雑かつ専門的な環境での情報検索の実践を再定義するために設計された遅延インタラクション型のマルチベクトルモデルを導入しました。
現在、単一ベクトルモデルが情報検索パイプラインを支配していますが、その実装の簡単さと一般的なタスクに対する効率性が要因です。しかし、このアプローチは、長いシーケンスや技術用語、曖昧な表現など、複雑なコンテンツに直面した場合にその限界に達します。
まさにこの分野で、GTE-ModernColBERTは大きな進歩をもたらします。その遅延インタラクションアーキテクチャにより、トークン化された表現の詳細な粒度を保持します。ドキュメントを単一のベクトルに凝縮するのではなく、詳細なベクトル分布を維持し、クエリとドキュメントの関連セグメント間のより正確な一致を保証します。このアプローチは、専門的、法的、科学的、規制文書を扱う組織にとって特に効果的です。
GTE-ModernColBERTは、LightOnが昨年12月に発表した有名なBERT (Bidirectional Encoder Representations from Transformers) の最適化バージョンであるModernBERTに基づいています。ヨーロッパ企業のデータ管理と規制コンプライアンスの要件に応えるために設計されており、8192トークンまでのドキュメントを処理しながら、低レイテンシーとコスト管理の向上を保証します。
また、LightOnによって開発されたオープンソースライブラリPyLateを利用しており、ColBERTモデルの訓練を最適化し、情報取得パイプラインへの統合を簡素化します。そのミニマリストアプローチにより、研究者やエンジニアはわずか80行のコードで迅速な再現性と最適な実装を実現します。

パフォーマンス

パフォーマンス面では、GTE-ModernColBERTは厳格な業界標準であるBEIRベンチマークでColBERT-smallを上回った初のモデルです。これは、生物医学的検索、オープンクエスチョンアンサー、議論分析、コミュニティフォーラム、および科学的知識ベースのような多様な用途をカバーする18の異種データセットを評価します。ColBERT-smallの53.79に対して54.89の平均スコアを持つGTE-ModernColBERTは、異なるドメイン間での優れた一般化能力を提供し、混在した非構造化文書環境において重要な利点となります。
QDrant、LanceDB、Weaviate、Vespaなどの主要なベクトルデータベースとの最適化された互換性により、法的分析、技術文書、顧客サポート、科学研究などのアプリケーションにおける堅牢なRAGシステムの実装を容易にします。
Hugging FaceでGTE-ModernColBERTを試してみる

Cet article publirédactionnel est publié dans le cadre d'une collaboration commerciale

Pour mieux comprendre