更新日志¶
2023 年 7 月 11 日¶
功能优化¶
- 应用性能巡检:新增默认检测阈值更改入口,现在在开启巡检时可以同步需改需要检测服务的触发值。
2023 年 7 月 4 日¶
功能优化¶
-
RUM 性能巡检:对页面详情模块中根因展示逻辑进行优化,现在的根因定位的更加准确了。
-
工作空间资产巡检:新增默认配置(7 天),现在开启巡检不需要参数也可以运行了
2023 年 6 月 20 日¶
新增巡检¶
- AWS Cloudtrail 异常事件巡检:AWS CloudTrail 是一项用于跟踪、日志记录和监控 AWS 账户活动的服务。它记录了 AWS 账户中进行的操作,包括管理控制台访问、API 调用、资源变更等,我们可以通过监控 CloudTrail 的错误事件,及时发现潜在的安全问题。例如,非授权的 API 调用、访问被拒绝的资源、异常的身份验证尝试等。这有助于保护您的 AWS 账户和资源免受未经授权的访问和恶意活动;还可以了解到系统中发生的故障类型、频率和影响范围。这有助于您快速识别问题并采取适当的纠正措施,以减少服务中断时间和业务影响。
2023 年 6 月 6 日¶
新增巡检¶
- 工作空间资产巡检:针对于服务巡检应当确保服务正常运行,及时发现故障或异常,降低业务损失。其次,巡检有助于提高服务可用性和稳定性,发现并解决潜在问题。还可以巡检提高运维效率,加速问题诊断和解决,优化资源配置。保障业务安全。通过对主机、K8s、容器等服务的定期巡检,运维人员可以确保这些服务能够高效、稳定地支持业务,为企业提供持续可靠的运行环境。
2023 年 5 月 18 日¶
新增巡检¶
-
云上闲置资源巡检:云计算作为一种全新的IT服务方式发展迅猛,为企业和个人提供了方便、快捷、弹性的IT基础设施和应用服务,并带来极高的效率和经济性。然而,随着云资源逐渐成为企业数据中心的主要组成部分之后,云上资源的巨大浪费问题也愈加显著。尤其是在企业范围内,因为需求波动和部门之间的隔离等原因,导致部分云上资源无法得到充分利用,形成了大量的闲置资源。这种情况会使企业的云服务成本直线上升、资源效率下降,还有可能降低安全和性能水平。为了更好地管理和优化云上闲置资源,以提升云计算的使用效益和资源利用率,进行云上闲置资源巡检是非常有必要的。通过巡检,可以发现当前云服务中的不必要资源,及时进行处理,避免长时间不必要的资源使用而带来的费用开销、数据泄露、性能不佳等问题。
-
主机重启巡检:主机异常重启监控是现代互联网系统运维中的一个重要环节。一方面,计算机系统的稳定性和可靠性对于业务的平稳运行和用户的体验至关重要。当主机发生异常重启等问题时,会导致系统崩溃、服务中断和数据丢失等风险,进而影响业务运营和用户满意度。另一方面,在云计算和虚拟化环境中,主机的数量和规模不断增多,系统复杂度也在不断提高,出现问题的概率也在不断增加,这就需要系统管理员使用相关的系统监控工具进行实时监控,并及时发现解决异常重启等问题。因此,合理地实现主机异常重启监控,能够帮助企业快速诊断问题、降低业务风险、提升运维效率和用户体验。
功能优化¶
- 闲置主机巡检:新增对云主机类型关联添加费用相关信息。
2023 年 4 月 13 日¶
功能优化¶
- 磁盘使用率巡检:对磁盘使用率巡检趋势判断算法优化,为用户提供更精准的问题定位。
- 智能巡检:针对智能巡检整体开启逻辑进行优化,现在开启智能巡检变得更加简单了。
2023 年 3 月 30 日¶
功能优化¶
- 内存泄漏巡检:对内存泄漏巡检趋势判断算法优化,为用户提供更精准的问题定位。
- 云账户账单巡检:云账户账单巡检合并到云账户实例维度账单巡检中
2023 年 3 月 23 日¶
新增巡检¶
- 闲置主机巡检:随着业务的增长,资源使用的量也随之增大企业数据中心会越来越大,闲置主机的巨大浪费问题也愈加显著。尤其是在企业范围内,因为需求波动和部门之间的隔离等原因,导致部分主机无法得到充分利用,形成了大量的闲置资源。这种情况会使企业的云服务成本直线上升、资源效率下降,还有可能降低安全和性能水平。
功能优化¶
- 应用性能巡检:将对应用访问延时 P75 的定位更改为 P99 的定位,为用户提供更精准的问题定位。
2023 年 3 月 2 日¶
功能优化¶
- 应用性能巡检:优化对应用性能错误巡检的灵敏度,目前发生的应用性能错误会更加即时的发现。
2023 年 2 月 16 日¶
功能优化¶
-
RUM 性能巡检:支持影响用户的会话 ID 跳转查看问题 Session,在巡检事件报告中提供更专业的优化手段。
-
云账户实例维度账单巡检:新增对 AWS 账户实例维度账单巡检支持。
2023 年 2 月 9 日¶
新增巡检¶
- RUM 性能巡检:Real User Monitoring(RUM)是一种应用性能监测技术,旨在通过模拟真实用户在浏览网站时的行为来评估网站性能。RUM 的目的是从用户的角度了解网站性能,了解网站加载时间,网页呈现的效果,页面元素的加载情况以及交互的反应。RUM 性能巡检的使用场景主要是对于客户端类型的网站,例如:电子商务网站、金融网站、娱乐网站等等,这些网站都需要向用户呈现一个快速和流畅的访问体验。通过对 RUM 性能结果分析,可以快速帮助开发人员可以了解用户的实际体验,以便快速改进网站的性能。
- Kubernetes 健康巡检:现如今 Kubernetes 已经席卷了整个容器生态系统,它充当着容器分布式部署的大脑,旨在使用跨主机集群分布的容器来管理面向服务的应用程序。Kubernetes 提供了用于应用程序部署、调度、更新、服务发现和扩展的机制,但是该如何来保障 Kubernetes 节点的健康呢,通过智能巡检可以根据当前节点的资源状态、应用性能管理、服务故障日志等信息的检索和问题发现,从而加快事件调查、减轻工程师的压力、减少平均修复时间并改善最终用户体验。
2022 年 12 月 29 日¶
新增巡检¶
- 云账户实例维度账单巡检:云账户实例维度账单巡检帮助用户管理云服务实例级别的异常费用预警、预测费用情况并为用户提供高增长、高消耗的实例提示及账单可视化能力,支持多维度可视化云服务资源的消费情况。
- 阿里云抢占式实例存活巡检:由于抢占式实例的市场价格会随供需变化而浮动,需要在创建抢占式实例时指定出价模式,当指定实例规格的实时市场价格低于出价且库存充足时,才能成功创建抢占式实例。所以说对于云资产的抢占实例巡检就显得尤为重要,通过巡检当发现抢占式实例即将被释放时,会提示当前规格的抢占实例的所有可用区的最新价格以及改抢占式实例的历史价格并给出恰当的处理意见。
2022 年 12 月 1 日¶
新增巡检¶
- Kubernetes Pod 异常重启巡检:Kubernetes 帮助用户自动调度和扩展容器化应用程序,但现代 Kubernetes 环境正变得越来越复杂,当平台和应用工程师需要调查动态、容器化环境中的事件时,寻找最有意义的信号可能涉及许多试错步骤。通过智能巡检可以根据当前的搜索上下文过滤异常,从而加快事件调查、减轻工程师的压力、减少平均修复时间并改善最终用户体验。
- MySQL 性能巡检:对于日益复杂的应用架构,当前的趋势是越来越多的客户采用免运维的云数据库,所以巡检 MySQL的性能巡检是重中之重,定期会对 MySQL 进行智能巡检,通过发现 MySQL 的性能问题来进行异常告警。
- 服务端应用错误巡检:当服务端出现运行错误时,我们需要提早发现及时预警来让开发运维进行排错,及时确认错误是否对应用有潜在影响。服务端应用错误巡检事件上报的内容是提醒开发运维在过去一小时里应用出现了新的错误并定位到具体的出错的地方将关联的诊断线索一起提供给用户。
- 内存泄漏巡检:基于内存异常分析检测器,定期对主机进行智能巡检,通过出现内存异常的主机来进行根因分析,确定对应异常时间点的进程和 pod 信息,分析当前工作空间主机是否存在内存泄漏问题。
- 磁盘使用率巡检:基于磁盘异常分析检测器,定期对主机磁盘进行智能巡检,通过出现磁盘异常的主机来进行根因分析,确定对应异常时间点的磁盘挂载点和磁盘信息,分析当前工作空间主机是否存在磁盘使用率问题。
- 应用性能巡检:基于APM异常根因分析检测器,选择要检测的
service
、resource
、project
、env
信息,定期对应用性能进行智能巡检,通过应用程序服务指标异常来自动分析该服务的上下游信息,为该应用程序确认根因异常问题。
功能优化¶
- 前端应用日志错误巡检:前端错误日志巡检事件报告新增展示前端用户影响。
2022 年 11 月 3 日¶
新增巡检¶
- 云账户账单巡检:云账户账单巡检帮助用户管理云服务的预算预警、异常费用预警、预测费用情况并为用户提供可视化能力,支持多维度可视化云服务资源的消费情况。
- 前端应用日志错误巡检:前端错误日志巡检 会帮助发现前端应用过去一小时内新出现的错误消息(聚类之后的Error Message),帮助开发和运维及时修复代码,避免随着时间的积累对客户体验产生持续性伤害。
- 阿里云资产巡检:为观测云提供额外的数据接入能力,方便用户对云厂商的产品性能状态有更多的了解。
问题修复¶
- 磁盘使用率巡检:修复事件折线图显示异常问题。