监控器¶
在观测云,您可以使用开箱即用的监控模板来新建监控器;您也可以自定义新建监控器,通过阈值检测、日志检测、突变检测、区间检测等十余种检测规则来设置检测规则和触发条件。开启监控器后,即可接收到由检测规则触发的相关异常事件告警。
新建监控器¶
观测云支持您从主机、Docker、Elasticsearch 等监控模板快速创建监控器,或自定义新的监控器和触发条件并配置告警。
监控器¶
检测规则¶
目前观测云支持 14 种监控检测规则,不同的规则覆盖不同的数据范围。
规则名称 |
数据范围 |
基本描述 |
---|---|---|
阈值检测 | 全部 | 基于设置的阈值对指标数据进行异常检测。 |
突变检测 | 指标(M) | 基于历史数据对指标的突发反常表现进行异常检测,多适用于业务数据、时问窗短的场景。 |
区间检测 | 指标(M) | 基于动态阈值范围对指标的异常数据点进行检测,多适用于趋势稳定时间线。 |
离群检测 | 指标(M) | 检测特定分组下检测对象的指标/统计数据是否存在离群偏差情况。 |
日志检测 | 日志(L) | 基于日志数据进行业务应用的异常检测。 |
进程异常检测 | 进程对象(O::host_processes ) |
定时检测进程数据,了解进程异常情况。 |
基础设施存活检测 | 对象(O) | 基于基础设施对象数据,设置存活条件,监控基础设施的稳定性。 |
应用性能指标检测 | 链路(T) | 基于应用性能监测数据,设置阈值规则,检测异常情况。 |
用户访问指标检测 | 用户访问数据(R) | 基于用户访问监测数据,设置阈值规则,检测异常情况。 |
组合检测 | 全部 | 将多个监控器的结果通过表达式组合成一个监控器,基于组合后的结果进行告警。 |
安全巡检异常检测 | 安全巡检(S) | 基于安全巡检产生的数据进行异常检测,可以有效感知主机健康状态。 |
可用性数据检测 | 可用性数据(L::类型 ) |
基于可用性监测数据,设置阈值规则,检测异常情况。 |
网络数据检测 | 网络(N) | 基于网络数据,设置阈值规则,检测网络性能的稳定性。 |
外部事件检测 | 其他 | 通过指定 URL 地址,将第三方系统产生的异常事件或记录以 POST 请求方式发送到 HTTP 服务器后生成观测云的事件数据。 |
了解更多 | ||
---|---|---|
阈值检测 | 日志检测 | 突变检测 |
区间检测 | 离群检测 | 安全巡检异常检测 |
应用性能指标检测 | 用户访问指标检测 | 进程异常检测 |
基础设施存活检测 | 可用性监测数据检测 | 网络数据检测 |
外部事件检测 | 组合检测 |
官方模板库¶
观测云内置多种开箱即用的监控模板,支持一键创建主机、Docker、Elasticsearch、Redis、阿里云 RDS、阿里云 SLB、Flink 监控等官方监控器至当前工作空间。
注意:反复从模板创建监控器会导致监控器列表内出现重复的监控器,观测云支持检测重复的监控器,您可以通过在弹窗提示中选择“是”正常创建模板库中所有的监控器,或选择“否”仅创建不重复的监控器。
自定义模板库¶
您可以将已创建好的监控器保存为模版,便于您之后快速添加或删除监控器配置条件。
监控器列表¶
在监控器列表,您可以查看当前工作空间内的所有监控器及其名称、告警策略、创建人等信息。
操作列¶
-
启动/禁用:观测云支持启用/禁用已有的监控器。新建的监控器将默认启动。
- 注意:禁用的监控器将不再生效;被禁用的监控器可重新开启。
-
克隆:点击即可直接克隆复制选定的监控器。
-
编辑:观测云支持通过点击监控器名称或编辑对已有的监控器进行重新编辑。
-
查看相关事件:由同一监控器触发的告警事件统一存储在对应监控器下,通过查看相关事件,可直接跳转由该规则触发的全部未恢复事件来进行事件管理。
-
查看相关视图:每一个监控器都支持关联一个仪表板,编辑监控器,即可通过关联仪表板功能关联对应所需的仪表板。
-
手动触发测试:观测云支持手动触发监控器检测。若当前检测规则触发,您可以在事件查看器查看相关详情。
- 注意:在测试监控器时,只要手工触发,一定会产生事件记录并发送告警通知;手动测试时,静默规则依旧生效。
-
删除:观测云支持对已有的监控器进行删除。
- 注意:一旦删除监控器,将无法恢复监控器数据,事件数据仍做保留。
-
批量操作:您可以针对特定监控器进行批量操作,包括批量启用、禁用、删除和导出。
搜索查询¶
在左侧的快捷筛选,您可以基于告警策略、状态、标签和监控器类型快速定位至需要查看的目标监控器。
您还可以基于监控器名称、告警策略名称直接在搜索框进行搜索。
导入¶
在监控器中支持通过导入 监控器配置 JSON 文件的方式创建监控器。导入的 JSON 文件将直接导入为监控器,并默认分组。
注意:导入的 JSON 文件需要是来自观测云的配置 JSON 文件。
标签显示¶
观测云支持为监控器添加标签。您可以选中已有标签,也可以直接手动输入,回车后创建新标签。监控器检测触发的事件同样会附带上这些标签。
已添加的标签保存后可直接在列表内显示。您可以根据左侧快捷筛选 > 标签快速查找对应标签下所包含的监控器。
标签逻辑补充:
标签值格式不限,可以是 value
的格式,例如 aaa
,或是key:value
,例如 test:123
;
若您自定义的标签 key 与其他事件属性重复,则做丢弃操作(tags 除外)。例如:当设置监控器 by host
,最终生成的事件属性有 host:guance_01
。若您为监控器添加了标签 host:000
,则丢弃自定义标签 host:000
,不写入到事件属性中。
SLO 联动¶
被添加至 SLO 作为 SLI 的监控器将以特殊标识展示:
Hover 可查看关联的 SLO 列表,点击 即可打开对应的的 SLO 详情页。
告警策略¶
告警策略功能支持您在设定监控器时,自定义创建有意义的监测器组合,您可以通过告警策略筛选出对应监控器,方便告警策略管理各项监控器。
注意:
- 为监控器配置告警策略时,为保证检测时间范围内的数据不会因为网络、落库等延迟影响,监控器的异常事件检测配置了 2 分钟的等待处理时间;
- 每个监控器创建时必须选择一个告警策略,默认选中默认;
- 当某个告警策略被删除时,删除告警策略下的监控器将自动归类到默认下。
更多详情,可参考如何创建和管理告警策略。
恢复监控器¶
观测云支持查看已有监控器的状态、最后更新时间、创建时间以及创建人,支持通过恢复监控器来查看监控器的历史配置,帮助您快速和团队其他成员沟通协作来更新监控器。
操作示例:
在监控 > 监控器,选择编辑已有的监控器,在监控器配置页面,点击右上角的 按钮,即可查看监控器的状态、最后更新时间、创建时间以及创建人。
点击上图中更新时间右侧的 查看按钮,即可打开新的浏览器窗口查看上一版本的监控器配置;
点击上一版本监控器右上角的恢复此版本,在弹出的对话框中,确认恢复,即可恢复到上一版本的监控器配置进行编辑和保存。