翼度科技»论坛 云主机 LINUX 查看内容

SRE:如何提高报警有效性?

5

主题

5

帖子

15

积分

新手上路

Rank: 1

积分
15
为什么要提升

过多的报警会让负责人麻木
过多的报警会增加短信和电话的成本
提升根因定位效率
如何定义

不漏报
不误报
不重报
不延报
如何量化

MTTF (Mean Time To Failure,平均无故障时间):平均正常运行时间
MTTR (Mean Time To Repair,平均修复时间):故障发生到故障修复之间的平均值
MTBF (Mean Time Between Failure,平均失效间隔):两次故障之间的平均值
报警次数,有效报警量
漏报次数
重复报警数
故障感知时长
报警认领率
如何提升

服务提升:从源头解决问题,减少报警
阈值合理:故障、预警的阈值都要合理
故障自愈:可以有效降低短信和电话报警次数,减少人工故障处理成本。(但不能依赖)
排除抖动:最常用的方式是连续出现问题再报警
降低维护成本:如规范监控指标,使用统一sdk、脚本等
监控完善&自感知

  • 抓手-分级合理:对监控对象进行分级(如高优服务)、对报警进行分级(严重故障电话报警)。如永久排除非线上环境的机器。
  • 多维度监控完善:业务监控、服务监控、基础监控......
  • 借助程序:自动感知新的服务、新的接口、新的调用关系......(防止系统变更导致漏报)
减少重复报警

  • 报警收敛:如一个集群有多台机器出现问题,就需要收敛
  • 合理设置报警间隔
  • 报警接收人合理:可以设置值班制度+紧急上升
  • 落实责任制:如报警认领率、成本分摊

来源:https://www.cnblogs.com/NetRookieX/p/17134902.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

举报 回复 使用道具