跳到主要内容

APO v1.6.0 更新:告警工作流优化;服务列表排序;故障现场数据关联

· 阅读需 3 分钟

cover 图

本次 APO v1.6.0 版本更新带来了以下内容。注意本次更新存在破坏性变更,请参考官网的“安装手册”-“版本升级手册”进行升级。

更新日志

⚠️破坏性变更

  • 使用 PV 替换 HostPath 持久化方式,提高可维护性。如果您创建或修改过工作流,建议备份Postgres后再升级,否则工作流数据会重置。
  • 数据持久化变更:Grafana 和 apo-backend 数据库默认使用 PostgreSQL。请参考官网的“安装手册”-“版本升级手册”进行数据备份和升级。
  • Helm Charts 配置变量变更:工作流对应 baseurl 中的固定端口优化为可编辑端口,升级时请修改 values 文件中对应变量。

新增功能

  • 进一步优化“告警有效性分析”工作流和“告警简单根因分析”工作流,增加识别效果和准确率

  • 服务概览中的服务列表支持按照不同指标排序。现在可以点击表格标题按照该指标进行排序: 1 图

  • 支持根据TraceID从故障现场链路跳转至故障现场日志 2 图

  • 故障现场日志新增TraceID筛选条件 3 图

  • (企业版)新增线程级北极星指标和展示仪表盘 4 图

功能优化

  • 故障现场链路默认展示故障数据,新增既错又慢状态筛选 5 图

  • OneAgent 支持自动监控新建的namespace中的服务

  • 可配置告警有效性检查的执行频率和采样方式

  • 告警列表自动更新最新数据和状态

  • 优化工作流页面展示布局

缺陷修复

  • 修复 apo-backend 中的 polaris-analyzer 内存未及时清理的问题
  • 修复 OneAgent 注入Trace探针时可能覆盖JVM配置的问题
  • 修复链路追踪断链场景时,缺失下游服务的问题
  • 修复服务详情中仪表盘未匹配对应服务的问题

其他

  • apo-otel-collector 新增prometheus-remote-write receiver

6 图