监控¶
观测云提供完善的异常监测体系,基于统一的平台数据,提供从检测、告警到事件管理的完整解决方案。通过创建监控器,您可以对指标、日志、应用性能、用户访问、对象等数据进行持续性的状态判断。当监控器检测到异常时,会自动触发告警并生成事件,通过预设的通知策略告知相关人员。同时支持告警静默与 SLO 管理,实现精细化的告警治理与稳定性度量。
开始使用¶
-
监控器是执行检测任务的核心组件。支持针对时序指标、日志、应用性能管理(APM)、用户体验(RUM)等数据来源设置检测规则。您可以根据不同的监控场景,设置包括阈值检测、突变检测、区间检测等在内的多种触发规则,并灵活配置检测频率、触发条件等,确保准确识别系统异常状态
-
监控器支持接入智能检测算法。采用机器学习技术自动分析监控指标的历史数据特征和周期规律,能够智能识别数据中的异常波动。该功能适用于检测具有周期性、趋势性的复杂指标,有效弥补固定阈值检测的局限性,提升异常发现的准确性和及时性
-
用于建立从异常检测到通知处理的完整告警机制。通过创建告警策略,可定义在特定条件下触发告警,并执行相应的通知动作。告警策略通过绑定监控器来确定告警的检测来源,设置触发条件来规定告警的事件等级,并配置通知规则来选择通知对象及发送渠道
-
在创建告警策略时,通过配置通知对象来定义告警消息的接收方。支持创建多个通知对象,包括钉钉、飞书、企业微信机器人等类型。每个通知对象在创建后,可在告警策略中进行绑定,从而建立告警事件与消息接收方之间的对应关系。通过此机制,实现将不同的告警事件发送到指定的团队或平台
-
所有触发的告警会统一汇聚至告警事件中心。为避免在计划性维护或已知问题期间产生告警干扰,您可以设置静默规则,在指定时间内对特定监控器或监控对象抑制告警通知
-
SLO(服务等级目标)管理允许您基于监控器所产生的数据(如请求成功率、延迟等)来定义服务的稳定性目标。您可以创建 SLO 并配置目标值,系统会持续追踪 SLO 达成情况与剩余误差预算,为服务稳定性提供量化依据