翼度科技»论坛 云主机 服务器技术 查看内容

IoT 边缘集群Kubernetes Events告警通知进一步配置详解

7

主题

7

帖子

21

积分

新手上路

Rank: 1

积分
21
目标

上一篇文章
IoT 边缘集群基于 Kubernetes Events 的告警通知实现
告警恢复通知 - 经过评估无法实现
原因: 告警和恢复是单独完全不相关的事件, 告警是
  1. Warning
复制代码
级别, 恢复是
  1. Normal
复制代码
级别, 要开启恢复, 就会导致所有
  1. Normal
复制代码
Events 都会被发送, 这个数量是很恐怖的; 而且, 除非特别有经验和耐心, 否则无法看出哪条
  1. Normal
复制代码
对应的是 告警的恢复.

  • 未恢复进行持续告警 - 默认就带的能力, 无需额外配置.
  • 告警内容显示资源名称,比如节点和pod名称
可以设置屏蔽特定的节点和工作负载并可以动态调整
比如,集群
  1. 001
复制代码
中的节点
  1. worker-1
复制代码
做计划性维护,期间停止监控,维护完成后重新开始监控。

配置


告警内容显示资源名称

典型的几类 events:
  1. apiVersion: v1
  2. count: 101557
  3. eventTime: null
  4. firstTimestamp: "2022-04-08T03:50:47Z"
  5. involvedObject:
  6.   apiVersion: v1
  7.   fieldPath: spec.containers{prometheus}
  8.   kind: Pod
  9.   name: prometheus-rancher-monitoring-prometheus-0
  10.   namespace: cattle-monitoring-system
  11. kind: Event
  12. lastTimestamp: "2022-04-14T11:39:19Z"
  13. message: 'Readiness probe failed: Get "http://10.42.0.87:9090/-/ready": context deadline
  14.   exceeded (Client.Timeout exceeded while awaiting headers)'
  15. metadata:
  16.   creationTimestamp: "2022-04-08T03:51:17Z"
  17.   name: prometheus-rancher-monitoring-prometheus-0.16e3cf53f0793344
  18.   namespace: cattle-monitoring-system
  19. reason: Unhealthy
  20. reportingComponent: ""
  21. reportingInstance: ""
  22. source:
  23.   component: kubelet
  24.   host: master-1
  25. type: Warning
复制代码
  1. apiVersion: v1
  2. count: 116
  3. eventTime: null
  4. firstTimestamp: "2022-04-13T02:43:26Z"
  5. involvedObject:
  6.   apiVersion: v1
  7.   fieldPath: spec.containers{grafana}
  8.   kind: Pod
  9.   name: rancher-monitoring-grafana-57777cc795-2b2x5
  10.   namespace: cattle-monitoring-system
  11. kind: Event
  12. lastTimestamp: "2022-04-14T11:18:56Z"
  13. message: 'Readiness probe failed: Get "http://10.42.0.90:3000/api/health": context
  14.   deadline exceeded (Client.Timeout exceeded while awaiting headers)'
  15. metadata:
  16.   creationTimestamp: "2022-04-14T11:18:57Z"
  17.   name: rancher-monitoring-grafana-57777cc795-2b2x5.16e5548dd2523a13
  18.   namespace: cattle-monitoring-system
  19. reason: Unhealthy
  20. reportingComponent: ""
  21. reportingInstance: ""
  22. source:
  23.   component: kubelet
  24.   host: master-1
  25. type: Warning
复制代码
  1. apiVersion: v1
  2. count: 20958
  3. eventTime: null
  4. firstTimestamp: "2022-04-11T10:34:51Z"
  5. involvedObject:
  6.   apiVersion: v1
  7.   fieldPath: spec.containers{lb-port-1883}
  8.   kind: Pod
  9.   name: svclb-emqx-dt22t
  10.   namespace: emqx
  11. kind: Event
  12. lastTimestamp: "2022-04-14T11:39:48Z"
  13. message: Back-off restarting failed container
  14. metadata:
  15.   creationTimestamp: "2022-04-11T10:34:51Z"
  16.   name: svclb-emqx-dt22t.16e4d11e2b9efd27
  17.   namespace: emqx
  18. reason: BackOff
  19. reportingComponent: ""
  20. reportingInstance: ""
  21. source:
  22.   component: kubelet
  23.   host: worker-1
  24. type: Warning
复制代码
  1. apiVersion: v1
  2. count: 21069
  3. eventTime: null
  4. firstTimestamp: "2022-04-11T10:34:48Z"
  5. involvedObject:
  6.   apiVersion: v1
  7.   fieldPath: spec.containers{lb-port-80}
  8.   kind: Pod
  9.   name: svclb-traefik-r5p8t
  10.   namespace: kube-system
  11. kind: Event
  12. lastTimestamp: "2022-04-14T11:44:59Z"
  13. message: Back-off restarting failed container
  14. metadata:
  15.   creationTimestamp: "2022-04-11T10:34:48Z"
  16.   name: svclb-traefik-r5p8t.16e4d11daf0b79ce
  17.   namespace: kube-system
  18. reason: BackOff
  19. reportingComponent: ""
  20. reportingInstance: ""
  21. source:
  22.   component: kubelet
  23.   host: worker-1
  24. type: Warning
复制代码
  1. {
  2.   "metadata": {
  3.     "name": "event-exporter-79544df9f7-xj4t5.16e5c540dc32614f",
  4.     "namespace": "monitoring",
  5.     "uid": "baf2f642-2383-4e22-87e0-456b6c3eaf4e",
  6.     "resourceVersion": "14043444",
  7.     "creationTimestamp": "2022-04-14T13:08:40Z"
  8.   },
  9.   "reason": "Pulled",
  10.   "message": "Container image "ghcr.io/opsgenie/kubernetes-event-exporter:v0.11" already present on machine",
  11.   "source": {
  12.     "component": "kubelet",
  13.     "host": "worker-2"
  14.   },
  15.   "firstTimestamp": "2022-04-14T13:08:40Z",
  16.   "lastTimestamp": "2022-04-14T13:08:40Z",
  17.   "count": 1,
  18.   "type": "Normal",
  19.   "eventTime": null,
  20.   "reportingComponent": "",
  21.   "reportingInstance": "",
  22.   "involvedObject": {
  23.     "kind": "Pod",
  24.     "namespace": "monitoring",
  25.     "name": "event-exporter-79544df9f7-xj4t5",
  26.     "uid": "b77d3e13-fa9e-484b-8a5a-d1afc9edec75",
  27.     "apiVersion": "v1",
  28.     "resourceVersion": "14043435",
  29.     "fieldPath": "spec.containers{event-exporter}",
  30.     "labels": {
  31.       "app": "event-exporter",
  32.       "pod-template-hash": "79544df9f7",
  33.       "version": "v1"
  34.     }
  35.   }
  36. }
复制代码
我们可以把更多的字段加入到告警信息中, 其中就包括:

  • 节点:
    1. {{ Source.Host }}
    复制代码
  • Pod:
    1. {{ .InvolvedObject.Name }}
    复制代码
综上, 修改后的
  1. event-exporter-cfg
复制代码
yaml 如下:
  1. apiVersion: v1
  2. kind: ConfigMap
  3. metadata:
  4.   name: event-exporter-cfg
  5.   namespace: monitoring
  6.   resourceVersion: '5779968'
  7. data:
  8.   config.yaml: |
  9.     logLevel: error
  10.     logFormat: json
  11.     route:
  12.       routes:
  13.         - match:
  14.             - receiver: "dump"      
  15.         - drop:
  16.             - type: "Normal"
  17.           match:
  18.             - receiver: "feishu"                     
  19.     receivers:
  20.       - name: "dump"
  21.         stdout: {}
  22.       - name: "feishu"
  23.         webhook:
  24.           endpoint: "https://open.feishu.cn/open-apis/bot/v2/hook/..."
  25.           headers:
  26.             Content-Type: application/json
  27.           layout:
  28.             msg_type: interactive
  29.             card:
  30.               config:
  31.                 wide_screen_mode: true
  32.                 enable_forward: true
  33.               header:
  34.                 title:
  35.                   tag: plain_text
  36.                   content: xxx测试K3S集群告警
  37.                 template: red
  38.               elements:
  39.                 - tag: div
  40.                   text:
  41.                     tag: lark_md
  42.                     content: "**EventID:**  {{ .UID }}\n**EventNamespace:**  {{ .InvolvedObject.Namespace }}\n**EventName:**  {{ .InvolvedObject.Name }}\n**EventType:**  {{ .Type }}\n**EventKind:**  {{ .InvolvedObject.Kind }}\n**EventReason:**  {{ .Reason }}\n**EventTime:**  {{ .LastTimestamp }}\n**EventMessage:**  {{ .Message }}\n**EventComponent:**  {{ .Source.Component }}\n**EventHost:**  {{ .Source.Host }}\n**EventLabels:**  {{ toJson .InvolvedObject.Labels}}\n**EventAnnotations:**  {{ toJson .InvolvedObject.Annotations}}"
复制代码
屏蔽特定的节点和工作负载

比如,集群
  1. 001
复制代码
中的节点
  1. worker-1
复制代码
做计划性维护,期间停止监控,维护完成后重新开始监控。
继续修改
  1. event-exporter-cfg
复制代码
yaml 如下:
  1. apiVersion: v1
  2. kind: ConfigMap
  3. metadata:
  4.   name: event-exporter-cfg
  5.   namespace: monitoring
  6. data:
  7.   config.yaml: |
  8.     logLevel: error
  9.     logFormat: json
  10.     route:
  11.       routes:
  12.         - match:
  13.             - receiver: "dump"      
  14.         - drop:
  15.             - type: "Normal"
  16.             - source:
  17.                 host: "worker-1"
  18.             - namespace: "cattle-monitoring-system"
  19.             - name: "*emqx*"
  20.             - kind: "Pod|Deployment|ReplicaSet"
  21.             - labels:
  22.                 version: "dev"
  23.           match:
  24.             - receiver: "feishu"                     
  25.     receivers:
  26.       - name: "dump"
  27.         stdout: {}
  28.       - name: "feishu"
  29.         webhook:
  30.           endpoint: "https://open.feishu.cn/open-apis/bot/v2/hook/..."
  31.           headers:
  32.             Content-Type: application/json
  33.           layout:
  34.             msg_type: interactive
  35.             card:
  36.               config:
  37.                 wide_screen_mode: true
  38.                 enable_forward: true
  39.               header:
  40.                 title:
  41.                   tag: plain_text
  42.                   content: xxx测试K3S集群告警
  43.                 template: red
  44.               elements:
  45.                 - tag: div
  46.                   text:
  47.                     tag: lark_md
  48.                     content: "**EventID:**  {{ .UID }}\n**EventNamespace:**  {{ .InvolvedObject.Namespace }}\n**EventName:**  {{ .InvolvedObject.Name }}\n**EventType:**  {{ .Type }}\n**EventKind:**  {{ .InvolvedObject.Kind }}\n**EventReason:**  {{ .Reason }}\n**EventTime:**  {{ .LastTimestamp }}\n**EventMessage:**  {{ .Message }}\n**EventComponent:**  {{ .Source.Component }}\n**EventHost:**  {{ .Source.Host }}\n**EventLabels:**  {{ toJson .InvolvedObject.Labels}}\n**EventAnnotations:**  {{ toJson .InvolvedObject.Annotations}}"
复制代码
默认的 drop 规则为:
  1. - type: "Normal"
复制代码
, 即不对
  1. Normal
复制代码
级别进行告警;
现在加入以下规则:
  1.             - source:
  2.                 host: "worker-1"
  3.             - namespace: "cattle-monitoring-system"
  4.             - name: "*emqx*"
  5.             - kind: "Pod|Deployment|ReplicaSet"
  6.             - labels:
  7.                 version: "dev"
复制代码

    1. ... host: "worker-1"
    复制代码
    : 不对节点
    1. worker-1
    复制代码
    做告警;
    1. ... namespace: "cattle-monitoring-system"
    复制代码
    : 不对 NameSpace:
    1. cattle-monitoring-system
    复制代码
    做告警;
    1. ... name: "*emqx*"
    复制代码
    : 不对 name(name 往往是 pod name) 包含
    1. emqx
    复制代码
    的做告警
    1. kind: "Pod|Deployment|ReplicaSet"
    复制代码
    : 不对
    1. Pod
    复制代码
    1. Deployment
    复制代码
    1. ReplicaSet
    复制代码
    做告警(也就是不关注应用, 组件相关的告警)
    1. ...version: "dev"
    复制代码
    : 不对
    1. label
    复制代码
    含有
    1. version: "dev"
    复制代码
    的做告警(可以通过它屏蔽特定的应用的告警)

最终效果

如下图:


以上就是IoT 边缘集群Kubernetes Events告警通知进一步配置详解的详细内容,更多关于IoT Kubernetes Events告警的资料请关注脚本之家其它相关文章!

来源:https://www.jb51.net/article/275636.htm
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

举报 回复 使用道具