跳转至

LLM 监测


LLM(Large Language Model,大型语言模型)是一种基于深度学习的人工智能技术,能够理解和生成自然语言文本。它将 LLM 请求与整个应用链路关联起来,追踪每一次对话的完整流程,精确计量每次生成任务消耗的 Token 数量。

在实际使用 LLM 监测服务中,您可以:

  • 查看单次请求的完整链路:清晰查看用户提问从接收、处理(如数据库查询)、到调用 LLM 模型并返回答案的整个过程

  • 分析性能瓶颈:精确测量每个环节(如模型调用、数据检索)的耗时,及时发现延迟

  • 关联上下游服务:关联 LLM 请求与相关的应用程序、基础设施指标,进行全面根因分析

核心能力

LLM 可观测性功能最核心的部分是建立输入(Prompt)、输出(Completion)与系统行为之间的可量化关联。其核心能力体现在三个维度:

1. 全链路追踪

在 LLM 调用框架中,通过 Trace 和 Span 精确追踪请求全链路,定位延迟瓶颈。

2. 质量输出评估

内部基于规则引擎和 AI 评估自动优化输出内容。

3. 成本计量

自动采集并关联每次请求的 Token 消耗(输入/输出分解)、模型类型及调用参数,提供基于多业务维度的成本分摊能力。

开始使用

接入数据

在应用列表创建 LLM 应用,目前默认支持 Langfuse 接入框架。定义应用名称与 ID 后,系统生成配置参数和 Client Token,按指引完成 Python、JS/TS 或其他框架的接入配置,即可开始采集数据。

查看分析

数据接入后,每次 LLM 请求会作为日志事件集中到查看器。您可在此搜索筛选 Trace 或 Span 数据,查看输入输出内容、Token 消耗、执行耗时等指标,也可下钻到详情页查看完整请求链路。

监控概览

通过分析看板以图表形式总览应用运行状况,包括请求量、错误率、Token 消耗、响应耗时、各模型使用占比等核心指标,全面掌握应用性能与成本分布。

文档评价

文档内容是否对您有帮助? ×