<p align="right"><font color="#3f3f3f">2025年06月11日</font></p>
### 1. 与传统可观测性的根本差异
#### 数据类型的不同
传统可观测性工具主要服务于SRE(站点可靠性工程师),而AI可观测性需要处理密集的非结构化信息,如文本、音频或图像。LLM可观测性专注于语言模型的非确定性行为,跟踪提示、完成结果和上下文信息,而不仅仅是系统日志。
#### 用户角色的差异
智能体工程师是一个完全不同的用户群体,他们有着与传统SRE不同的需求,需要理解应用程序中正在发生的事情。
### 2. AI可观测性的核心挑战
#### 非确定性行为
LLM不仅仅执行预定义的逻辑,它们通过数十亿个参数做出概率性决策,随着输入模式的演变而细微地改变行为。跟踪CPU使用率或内存消耗无法告诉你模型是否在产生幻觉或从其训练分布中偏离。
#### 输出质量评估
与传统软件不同,传统软件的输出可以与预期结果进行测试,LLM会生成可变的输出。这使得持续评估质量变得困难。AI可观测性需要处理输出质量的测量,而不仅仅是系统性能。
### 3. AI智能体观测的特殊需求
#### 复杂的执行流程追踪
观察智能体意味着跟踪和分析AI智能体的性能、行为和交互。这包括对多个LLM调用、控制流、决策过程和输出的实时监控。
大多数其他LLMOps解决方案监控对LLM提供商的单个API请求,只能提供单个LLM调用的有限视图。相比之下,LangSmith从第一天起就专注于追踪LLM应用程序的整个执行流程。
#### 多步骤工作流监控
由于智能体的复杂性,追踪对智能体来说很重要。它不仅捕获多个LLM调用,还包括其他步骤(如检索)。
### 4. LangSmith的解决方案
#### 专门的AI监控指标
LangSmith提供了一套生产环境中的可观测性工具,跟踪许多LLM特定的统计数据,如追踪数量、反馈、首个token时间等。
#### 智能体特定功能
根据Interrupt 2025的发布,LangSmith可观测性现在包括智能体特定指标,增加了对工具调用和轨迹跟踪的支持,这样用户可以看到智能体采取的常见路径,并发现昂贵、缓慢或不稳定的调用。
### 5. 实际应用中的可观测性需求
#### 调试和质量保证
LangSmith提供统一的可观测性和评估平台,团队可以在其中调试、测试和监控AI应用性能,快速调试和理解非确定性LLM应用行为。
#### 根因分析
虽然监控可以提醒你此类事件的频率,但可观测性使你能够将这些响应追溯到特定的提示或数据输入,帮助检测幻觉并识别根本原因。
### 6. 生产环境的持续监控
#### 实时性能监控
LLM可观测性支持对各种性能评估指标的实时监控,如LLM应用的延迟和吞吐量以及响应质量。
#### 质量vs性能的平衡
虽然LLM使用的架构仍然需要传统的可观测性配置,但LLM主要是部署在代码外部的单独对象,以提示和响应的方式访问,这需要定性的可观测性。
### 7. 发展趋势和意义
如果LangSmith的聚合追踪量反映了更广泛的行业趋势,更多的智能体正在投入生产,这使得AI可观测性堆栈的需求比以往任何时候都更加重要。
总结来说,AI可观测性的独特需求源于LLM和智能体系统的非确定性、复杂性和多步骤工作流特征,需要专门的工具和方法来监控、调试和优化这些系统的性能和质量。