APO v1.6.0 更新:告警工作流优化;服务列表排序;故障现场数据关联
· 阅读需 3 分钟
本次 APO v1.6.0 版本更新带来了以下内容。注意本次更新存在破坏性变更,请参考官网的“安装手册”-“版本升级手册”进行升级。
更新日志
⚠️破坏性变更
- 使用 PV 替换 HostPath 持久化方式,提高可维护性。如果您创建或修改过工作流,建议备份Postgres后再升级,否则工作流数据会重置。
- 数据持久化变更:Grafana 和 apo-backend 数据库默认使用 PostgreSQL。请参考官网的“安装手册”-“版本升级手册”进行数据备份和升级。
- Helm Charts 配置变量变更:工作流对应 baseurl 中的固定端口优化为可编辑端口,升级时请修改 values 文件中对应变量。
新增功能
-
进一步优化“告警有效性分析”工作流和“告警简单根因分析”工作流,增加识别效果和准确率
-
服务概览中的服务列表支持按照不同指标排序。现在可以点击表格标题按照该指标进行排序:
-
支持根据TraceID从故障现场链路跳转至故障现场日志
-
故障现场日志新增TraceID筛选条件
-
(企业版)新增线程级北极星指标和展示仪表盘
功能优化
-
故障现场链路默认展示故障数据,新增既错又慢状态筛选
-
OneAgent 支持自动监控新建的namespace中的服务
-
可配置告警有效性检查的执行频率和采样方式
-
告警列表自动更新最新数据和状态
-
优化工作流页面展示布局
缺陷修复
- 修复 apo-backend 中的 polaris-analyzer 内存未及时清理的问题
- 修复 OneAgent 注入Trace探针时可能覆盖JVM配置的问题
- 修复链路追踪断链场景时,缺失下游服务的问题
- 修复服务详情中仪表盘未匹配对应服务的问题
其他
- apo-otel-collector 新增prometheus-remote-write receiver