APO的告警关联和告警故障影响面功能介绍
· 阅读需 11 分钟
一般IT系统都会配置一系列告警来提醒运维或开发人员,系统存在问题。将告警进行分类之后,至少会有以下 种类的告警:
- 系统运行资源告警(CPU、内存、磁盘)
- 网络质量告警
- Kubernetes事件告警
- 应用级别告警(延时、错误率、吞吐量)
- 中间件告警
可观测性系统比较棘手的问题是告警噪音,告警噪音在某些场景是真实有效的,而在某些场景下又成为了噪音。APO团队认为告警噪音很难避免,但是可以通过在业务接口维度进行区分,快速聚焦到对业务产生影响的告警之上。同时APO还提供了故障影响面功能,用以判断告警到底对用户直接操作的入口业务有没有影响,如果有影响,需要确定什么级别的人员该被叫进来作为主导者,以便更快地调动资源恢复业务。
传统告警的处理方式
运维人员根据其经验设置告警规则,每种告警其实都是有意义的,如果没有意义,完全可以不设置该告警。
但在实际场景中,经常会出现告警噪音,也就是这种本应该产生警示作用的告警,实际上并没有实现其效果,反而成为了噪音。
我们必须要承认一个事实:告警噪音是很难避免的。