跳转至

事件中心


事件中心是观测云统一事件查询与分析平台,汇聚来自监控器、智能监控、SLO、安全监测、审计和 OpenAPI 等多来源的事件数据,提供多维度筛选、详情查看和关联分析能力。

事件中心仅做事件汇聚与查询不产生事件、不配置规则、不发送通知。事件由各来源模块独立产生后自动汇集至此。

事件来源

来源 产生方式 df_source
监控器 在监控模块配置检测规则,满足条件时触发 monitor
智能监控 AI 算法自动检测指标异常模式 smartMonitor
变更事件 针对 Kubernetes 集群中不同于预期模式的运行活动事件记录 change
SLO 在 SLO 模块配置服务质量目标,违约时触发 slo
安全监测 安全模块检测到的异常行为或漏洞告警 security
审计事件 用户在观测云平台的操作记录 audit
自定义事件 通过 OpenAPI 主动写入 user

事件内容构成

事件内容由来源系统在产生时确定,事件中心仅做展示

以监控器为例,事件内容基于新建规则 > 事件通知配置的模板,支持通过变量动态填充:

变量(举例) 说明 示例
{{Result}} 检测结果值 85.5
{{df_dimension_tags}} 事件维度 {"host":"web01"}
{{df_monitor_checker_name}} 监控器名称 主机 CPU 监控

系统根据实际监测数据替换变量后生成最终事件内容。

如下图,将事件标题定义为 日志检测-多索引,事件内容包含 DQL 查询语句和变量,系统会根据实际监测数据生成并展示最终结果。

规则监测到异常后,可在事件 > 事件详情中查看相关事件内容。

事件字段参考

通用字段

最终的事件记录一般会包含以下字段:

字段
说明
date / timestamp 产生时间。单位秒
df_date_range 时间范围。单位秒
df_check_range_start 检测范围开始时间。单位秒
df_check_range_end 检测范围结束时间。单位秒
df_issue_start_time 本轮首次故障发生的时间。单位秒
df_issue_duration 本轮故障的持续时间,单位秒(从 df_issue_start_time 开始到本事件)
df_source 事件来源。包括 monitor, user, system, custom, audit
df_status 事件状态。包括 ok, info, fatal, warning, error, critical, nodata, nodata_ok, nodata_as_ok, manual_ok
df_sub_status 事件细节状态(作为 df_status 的补充)
df_event_id 事件唯一 ID
df_title 标题
df_message 描述

监控器事件特有字段

df_source = monitor 时,额外存在以下字段:

字段
说明
df_dimension_tags 检测纬度标签,如{"host":"web01"}
df_monitor_id 告警策略 ID
df_monitor_name 告警策略名
df_monitor_type 所属类型:自定义监控事件为 custom,SLO 事件为 slo,智能巡检事件固定为 bot_obs
df_monitor_checker 执行函数名,如:custom_metric
df_monitor_checker_sub 检测阶段:在数据断档检测阶段产生的为 nodata,在正常检测阶段产生的为 check
df_monitor_checker_id 监控器 ID
df_monitor_checker_name 监控器名称
df_monitor_checker_value 事件产生时的异常值
df_monitor_checker_value_dumps 事件产生时的异常值(JSON 序列化)
方便使用方通过反序列化获取原始值
df_monitor_checker_value_with_unit 事件产生时的异常值(最优单位)
df_monitor_checker_ref 监控器关联,只和检测配置的 DQL 语句关联的字段
df_monitor_checker_event_ref 监控器事件关联,只和 df_dimension_tagsdf_monitor_checker_id 关联的字段
df_monitor_ref_key 自建巡检的关联 Key,用于和自建巡检对应
df_fault_id 本轮故障 ID,取值为首次故障事件的 df_event_id
df_fault_status 本轮故障状态,为 df_statusdf_sub_status 的冗余字段,标记是否为 OK,取值如下:
ok:正常
fault:故障
df_fault_start_time 本轮故障开始的时间。
df_fault_duration 本轮故障的持续时间,单位秒(从 df_issue_start_time 开始到本事件)
df_event_detail 事件检测详情
df_event_report 智能监控报告数据
df_user_id 手工恢复时,操作者用户 ID
df_user_name 手工恢复时,操作者用户名
df_user_email 手工恢复时,操作者用户邮箱
df_crontab_exec_mode 执行模式,可选值。
  • 自动触发(即定时执行)crontab
  • 异步调用(即手工执行)manual
  • df_site_name 当前观测云站点名
    df_workspace_name 所属工作空间名
    df_workspace_uuid 所属工作空间 UUID
    df_label 监控器标签,在监控器中指定的标签会存入此字段 UUID
    df_alert_policy_ids 告警策略 ID(列表)
    df_alert_policy_names 告警策略名称(列表)
    df_matched_alert_policy_rules 告警策略名称及所有匹配的规则名(列表)
    df_channels 事件所属的异常追踪频道列表
    df_at_accounts @账号信息
    df_at_accounts_nodata @账号信息(数据断档)
    df_message_at_accounts 故障告警消息中的 @用户 详细信息列表
    df_nodata_message_at_accounts 数据断档告警消息中的 @用户 详细信息列表
    df_workspace_declaration 工作空间的属性声明
    df_matched_alert_members 选择按成员发送时,所有匹配的告警通知成员信息列表
    df_matched_alert_upgrade_members 选择按成员发送时,所有匹配的告警升级通知成员信息列表
    df_matched_alert_member_groups 选择按成员发送时,所有匹配的成员组名
    df_charts 当监控器配置中添加图表后,且本告警事件需要发送消息时,追加的图表信息
    df_alert_info 记录告警通知信息
    df_is_silent 事件是否被静默,取值为字符串 "true" / "false"
    df_sent_target_types 本事件已发送的,不重复的告警通知对象类型列表
    df_check_targets 记录监控器配置中检测时间、检测指标
    df_check_conditiondf_check_condition_expr 记录监控器配置中的触发规则
    df_check_rules 记录监控器配置中的检测次数、检测规则
    df_check_targets 记录监控器配置中的检测时间、检测指标
    df_check_condition 记录监控器配置中的触发规则
    df_check_interval 记录监控器配置中的检测频率
    df_fault_end_time 记录故障恢复时间

    审计事件特有字段

    df_source = audit 时,额外存在以下字段:

    字段 说明
    df_user_id 操作者用户 ID
    df_user_name 操作者用户名
    df_user_email 操作者用户邮箱
    {其他字段} 根据具体审计数据需求的其他字段

    自定义事件特有字段

    df_source = user 时,额外存在以下字段:

    字段 说明
    df_user_id 创建者用户 ID
    df_user_name 创建者用户名
    df_user_email 创建者用户邮箱
    {其他字段} 根据用户操作而产生事件的其他字段

    事件查询与查看

    事件中心提供多个查看器,满足不同场景下的事件查询与分析需求。

    事件查看维度 描述 核心能力
    所有事件 全量事件查询 汇总展示当前工作空间内所有来源的事件数据,支持列表/图表两种展示模式,提供多维度筛选、搜索、导出、保存快照等能力
    未恢复事件 活跃故障追踪 集中展示最近 48 小时内 df_status != ok 的事件,以 df_fault_id 聚合展示故障持续时长
    变更事件 K8s 变更审计 针对 Kubernetes 集群中不同于预期模式的运行活动事件记录,展示变更前后配置差异
    智能监控事件 AI 异常查看 查看智能监控算法检测到的异常模式事件,包含分析报告、告警通知、历史记录
    事件详情 单事件深度分析 点击任意事件进入,查看基础属性、扩展字段、告警通知、历史记录、关联事件、关联 SLO 等完整信息

    更多阅读

    了解“事件”这一基本概念后,您可能需要:

    文档评价

    文档内容是否对您有帮助? ×