COVID-19暴露出分析技术中的致命软肋
这块具体的基本知识学习和搭建可详见我写的 Prometheus 系列,本文不再赘述。 监控指标 在平台搭建完毕后,常要做的第一步,那就是规划你整个系统的度量指标,结合 Google SRE 的 4 个黄金指标,可以初步划分出如下几种常用类型:
指标落地 第一步完成了整个系统的度量指标规划后,第二步就是需要确确实实的把指标落地了。 无论是统一基础框架的打点,系统组件的 exporter,大多涉及了公司级的跨多部门协作,这时候需要更多的耐心和长期主义和不断地对方向纠错,才能尝到体系建设后的果实。 告警体系 在完成监控指标和体系的建设后,告警如何做,成为了一大难题,再好的监控体系,闭环做不好,就无法发挥出很大的作用。因此我们给告警定义一些准则: 告警不要太多,否则会导致“狼来了”。 告警出现时,应当要具体操作某些事情,是亟待解决的。 告警出现时,应当要进行某些智力分析,不应该是机械行为。 不需要人工响应/处理的告警规则,应当直接删除。 告警出现时,你下意识要再观察观察的告警,要直接进行调整。 告警应当足够的简单,直观,不需要猜。 简单来讲就是告警要少,事件需要解决,处理要人工介入。否则右拐自动化自愈恢复可能更香。 告警给谁? 另外一个难题就是:谁诱发处理的告警,要通知给谁?
这是一个很需要斟酌的问题,在告警的规范上,尽可能遵循最小原则,再逐级上报。也就是先告警给 on-call 人,若超出 X 分钟,再逐级上报到全业务组,再及其负责人,一级级跟踪,实现渐进式告警。 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |