大型语言模型可观测性:监控生成式AI系统的准确性与合规性
浏览:7
巴克励步
LLM可观测性即LLMOps,通过记录追踪GenAI系统输入输出、组件交互等,助监控模型漂移、合规审计,优化响应质量与延迟,是提升AI性能及遵守法规的关键。
由GenAI技术驱动的聊天机器人在许多文档平台中日益突出。具备提示工程知识的客户正在聊天机器人中提出更好的问题并获得准确的回答。这显示了客户与文档网站互动方式的范式转变。此外,客户更倾向于自助服务,而不是等待客户支持代理的回复。如今,客户更感兴趣的是完成任务,而非亲力亲为。
AI代理能够规划任务、做出决策并自主执行一系列操作。它们在许多领域越来越受关注,并与技术写作实践高度相关。例如,技术写作者可以使用写作代理、会议记录代理等来完成其部分目标。为了建立对聊天机器人回复以及AI代理完成目标的信任,监控AI在生成响应过程中的活动至关重要。这归因于AI的可解释性,并有助于对AI进行审计。LLM可观测性是一种实践,有助于监控AI,并遵守全球关于可审计性和责任制的AI法规。
什么是LLM可观测性?
在传统机器学习中,有一种称为MLOps的实践,即AI模型一旦部署,所有模型设置、输入和输出都会被记录到一个系统中。这些记录的数据用于监控模型漂移、数据漂移等。这也有助于优先使用新数据对现有模型进行再训练。在GenAI领域,相当于MLOps的是LLMOps,通常也被称为LLM可观测性。LLM可观测性帮助数据科学家在诸如以下场景中记录GenAI系统的所有方面(称为追踪):
- 监控RAG系统中的内容检索、提示、重排序器输出以及第三方大语言模型,以生成响应。
- 理解RAG系统中不同组件之间的延迟。
- 理解在简单的提示工程任务(如摘要等)中响应是如何生成的。
- 理解AI代理内部的交互。
- 记录生成式AI系统的输入和输出以确保合规性。
大语言模型可观测性对于追踪生成式AI如何产生特定输出和响应至关重要。除非我们进行追踪,否则无法更改生成式AI系统组件以改变其未来行为。例如,如果聊天机器人因幻觉产生不准确的响应,记录这些响应以改变其行为非常重要。这可以通过修复系统指令、升级到新的大语言模型或修复内容检索来实现。大语言模型可观测性为我们指明了应用修复措施的方向。
大语言模型可观测性日志记录与洞察
大语言模型可观测性基于日志数据工作。单个数据日志称为一个跨度,而跨度的集合称为一个追踪。 追踪提供了多步骤工作流中数据收集的全面视图。跟踪生成式AI应用内部的细粒度活动取决于您的用例和需要优化的内容。例如,假设您想了解生成式AI系统的延迟。在这种情况下,建议将每个组件活动作为跨度进行追踪,以便获得系统整体视图。
这些是应成为大语言模型可观测性工具包一部分的一些工具。
- 延迟与性能指标
- 令牌用量与成本追踪
- 幻觉与事实性检测
- 提示词与响应记录
- 评估指标
- 追踪与依赖关系跟踪
- 错误检测
- 安全性与合规性检查
- 可解释性与调试辅助
以下是一个聊天机器人系统中的追踪示例:
与我们的专家预约演示,了解LLM可观测性如何提升准确性、合规性和性能
预约演示
RAG系统中的追踪
可以为从用户提示到响应生成的完整RAG系统生成追踪。工作流中的各个步骤可以记录为跨度。典型的追踪如下所示:
通过使用大量追踪,可以识别并修复以下问题:
- 检索质量
- 上下文窗口问题
- 性能瓶颈导致的缓慢
- 嵌入漂移
在这种情况下,LLM可观测性有助于提升响应质量并优化延迟,从而为用户提供更好的体验。
在AI代理系统中,每次执行代理工作流调用时都可能生成一条追踪记录,从而提供对代理系统中每个组件工作情况的细致观察。一个典型的旅行AI代理追踪记录可能如下所示:
利用大量的追踪记录,我们可以识别并修复以下问题:
- 工具选择问题
- 无限循环
- 规划不当
- 上下文丢失
在这种情况下,LLM可观测性有助于改进工作流优化、提示工程和代理行为调优,从而提高AI代理的性能效率。
遵守欧盟AI法案
根据欧盟AI法案,中低风险AI系统的关键要求之一是透明度和文档记录。
- AI系统提供商必须记录AI系统的能力、限制及其性能。LLM可观测性工具有助于自动记录LLM行为和决策过程,以及性能指标。
- AI系统提供商必须持续监控AI系统以发现风险及有害输出。LLM可观测性工具支持偏见检测、安全监控和异常行为识别。
- LLM可观测性通过数据质量跟踪、理解数据来源和检测数据偏见,帮助AI系统进行数据治理。
- 数据追溯有助于解释AI系统为何以及如何以特定方式提供响应。
- 这也助于事件报告。
对于任何使用生成式AI系统的组织而言,投资LLM可观测性是一项战略举措。LLM可观测性有助于应对核心挑战,例如理解聊天机器人的非确定性行为、审计复杂的多步骤工作流、评估聊天机器人响应质量以及降低安全风险。在实时场景中,追踪生成式AI系统各个方面可将质量和可靠性提升高达40%。随着生成式AI系统日益复杂,LLM可观测性提供了一种解决方案,以维护符合国际法律的监管要求。