人工知能アプリケーションはますます多くの企業に魅力を感じさせています。しかし、その拡大に伴い限界も浮き彫りになっています。不完全な回答、攻撃的な内容、または完全に不正確な回答(一般的に「幻覚」と呼ばれる) 、セキュリティの脆弱性あまりにも一般的な回答が、広範囲での採用を妨げています。

幻覚、セキュリティの欠陥、エラーが企業のAIアプリケーションへの信頼を弱め、その展開を妨げます。AIによって生成された架空の事件を含む法律ブリーフを提出したことで制裁を受けた2人の弁護士の事例に示されるように、LLMからの不適切な回答は信頼を損ない、イメージや評判を傷つける可能性があります。

可観測性は、技術システムの状態を理解するための技術と実践を統合したものです。AIアプリケーションの場合、これにはシステム全体の包括的な視点が必要です。可観測性は企業が言語モデル(LLM)の結果の質を評価するのに役立ち、幻覚、偏見、有毒性、性能問題、コストを検出します。AIが不可欠になると同時にその限界を示し始めるため、可観測性が必要です。検索エンジンの代わりにLLMを使用する際、ユーザーは正確な回答を期待します。AIがこのタスクに失敗すると、信頼を損ないます。

クラウドがそのサービスを評価・監視するツールを生み出したように、人工知能の台頭は独自の可観測性ソリューションを必要としています。AIアプリケーションはもはや単なる実験として扱われることはできません。それらは重要なアプリケーションと同じ厳しさで管理される必要があります。

「それが正しいように見える」を超えて

AIを使用する組織にとっての主な課題の一つは、モデルの正確性を評価する信頼できる方法を持つことです。評価から監視まで、可観測性はAIアプリケーションのパフォーマンス管理において重要な役割を果たします。可観測性は、多様なモデルやツールの中から最も適した解決策を特定し、展開後も継続的に監視して潜在的な異常を検出・修正し、性能、遅延、コストのバランスを最適化することを可能にします。これらのメカニズムを統合することで、組織はAIをより効率的かつ管理された方法で活用できます。

企業がAIに求めるべきもの

AIを安心して展開するために、企業は「十分に良い」を超えた高い基準を目指す必要があります。LLMの回答は、誠実で無害で役立つものでなければなりません。

回答は、誤りや発明がなく、検証可能な事実に基づくべきであり、要約、推論、計画といった複雑なタスクで優れている必要があります。責任あるAIは、自らの限界を認識し、情報がない場合には回答を控えることも知っています。セキュリティは最優先であり、AIは個人データを曝露したり、操作に屈したりしてはなりません。偏見、ステレオタイプ、有毒な偏向を防ぐための強固なメカニズムが必要です。最後に、人工知能はユーザーの目的に役立ち、その効率と意思決定の質を向上させるために、明確で有用で直接的に活用可能な回答を生成する必要があります。

信頼できる記憶が必要なタスクでは、LLMを外部データソースで強化し、正確性を保証する必要があります。これは、LLMと事実に基づくデータベースを組み合わせてより正確な回答を提供するというRAG(リサーチによる強化生成)の原則です。

RAGトライアドは、RAGアプリケーションが誠実で役に立つことを保証するための評価指標のセットです。これは、コンテキストの関連性、アンカー、および回答の関連性という3つの基準に基づいています。RAGシステムをその要素(クエリ、コンテキスト、回答)に分解することで、この評価フレームワークは障害点を特定し、システムをターゲットに最適化することを可能にします。

リスクからの防御

可観測性は幻覚を制限し、誤った回答を検出し、セキュリティの欠陥を見つけるのに役立ちます。マルチエージェントワークフローの出現に伴い、ツールコール、実行トレース、分散システムの正常な動作を監視することが重要になっています。リスクから守ることは、モデルを調整し、アプリケーションにガードレールを追加して有毒性、ステレオタイプ、敵対的攻撃を評価することを意味します。これは、AIの可能性を最大限に引き出し、企業を変革し、プロセスを最適化し、コストを削減し、新たな収益源を開拓するための重要な技術です。