人工智能应用越来越受到企业的青睐,但它们的扩展揭示了其局限性。不完整的回答、冒犯性或完全不准确的回答(俗称“幻觉”)、安全漏洞和过于通用的回答,阻碍了它们的大规模采用。
幻觉、安全漏洞和错误削弱了企业对其AI应用的信任,阻碍了它们的部署。正如两位律师被制裁的案例所示,LLM不当的回答可能会通过侵蚀信任来损害形象和声誉。
可观测性集合了理解技术系统状态的技术和实践。对于AI应用,这意味着从头到尾的完整视图。它帮助企业评估语言模型(LLM)结果的质量,同时检测幻觉、偏见、毒性、性能问题和成本。我们需要AI的可观测性,因为这项技术在它变得不可或缺时开始显示其局限性。当LLM取代搜索引擎时,用户期望它们提供准确的回答。如果AI未能完成这项任务,它将侵蚀信任。
正如云计算催生了评估和监控其服务的工具,人工智能的兴起也需要其自身的可观测性解决方案。AI应用不再仅仅是简单的实验。它们必须以管理关键应用程序的同样严格来进行管理。
超越“看起来还行”
使用AI的组织面临的主要挑战之一是拥有可靠的方法来评估模型的准确性。从评估到监控,可观测性在管理AI应用的性能中发挥关键作用。它使得在多种模型和工具中识别最合适的解决方案成为可能,并在部署后持续监控以检测和纠正潜在异常,以及优化性能、延迟和成本之间的平衡。通过整合这些机制,组织可以更有效和受控地利用AI。
企业对AI的要求
为了自信地部署AI,企业必须追求高标准,远超过“足够好”的水平。LLM的回答必须诚实、无害且有用。
它们应基于可验证的事实,没有错误或虚构,并在摘要、推理或规划等复杂任务中表现出色。负责的AI还应认识到其局限性,并在信息缺乏时避免回答。安全性至关重要,AI不应暴露个人数据或屈从于操控。强大的机制必须防止偏见、刻板印象和有害倾向。最后,人工智能应提供清晰、有用和直接可操作的回答,支持用户的目标,提高他们的效率和决策质量。
对于需要可靠记忆的任务,必须用外部数据源丰富LLM以确保准确性。这是增强搜索生成(RAG)的原则,它结合了LLM和事实数据库以提供更精确的回答。
RAG Triad是一套评估RAG应用的指标,以确保其诚实和有用。它基于三个标准:上下文相关性、锚定和回答的相关性。通过将RAG系统分解为其元素(请求、上下文、回答),该评估框架可以识别故障点并有针对性地优化系统。
防范风险
可观测性有助于限制幻觉、检测错误回答和识别安全漏洞。随着多代理工作流的出现,监控工具调用、执行跟踪和分布式系统的正常运行变得至关重要。防范风险意味着对模型进行对齐,并为应用添加保护措施,以评估毒性、刻板印象和对抗攻击。这是一项关键技术,用于充分利用AI的潜力,转变企业,优化流程,降低成本并开辟新的收入来源。