可以不断演进基于LLM和思维链的故障根因辅助定位
· 阅读需 18 分钟
业界目前使用LLM做根因定位的思路
基于LLM构建智能体,比如日志智能体、网络数据智能体、Trace智能体。每种智能体负责两个事情:异常检测和自身范围内异常根因数据的推荐。目前很多公司的实际效果还处于实验阶段,还未达到实际生产效果。
目前做法太复杂,复杂体现在以下几个方面:
第一:可观测性的数据属于海量低价值的数据,要针对这些数据依赖AI寻找人能理解的异常太复杂。多数情况是噪音大于实际收益。
第二:多智能体的交互太复杂,而且是建立在第一步异常检测的基础上分析出根因。
我们的思路:
- 依赖人为经验的基于规则告警和异常检测体系。告警和异常检测是可以对接已有告警体系,实现快速接入落地。
- 依赖思维链在完成疑似根因节点的识别,这里面专家经验可以调整进化。
- 依赖北极星指标,利用报告快速确认疑似节点的根因。
用户需求
从用户需求侧而言,故障根因辅助定位才是需要的。
异常检测的价值太缥缈:
绝大多数公司内部告警体系已经完善,虽然可能并没有办法覆盖所有的情况,但是基本上都认为已经做到相当充分。
那异常检测的价值就是发现未知的未知问题,就未知的未知问题而言,用户是没有认知的。用户要从未知的未知真实问题中和噪音问题中,区分哪个问题有价值,还是噪音,这个对用户要求太高。
基于规则的异常或者告警已经能实现绝大多数异常检测的目标,而且具有充分的可解释性。所有的规则都可以梳理,并确认,所以这一步我们认为还是基于规则的效果较好。
根因辅助定位是绝大多数用户的需求:
这块我们交流下来是用户最有需求的,因为排障的标准化流程缺失,导致严重依赖专家,排障的时间周期并不能如预期完成,也就很难完成业界的1-5-10目标。