标题:Prometheus + Grafana + AlertManager,万能监控公式也会踩坑……
时间:2022/08/31
分享
说到监控告警平台,大家应该都不会陌生,对于线上系统而言可以说是个标配,各个公司或项目也都会有搭建自己的监控告警平台的实际诉求。

当前比较主流的监控告警平台实现方案,很多都是基于Prometheus + Grafana + AlertManager来实现的。但是实际使用的时候会发现不易实施:

在运维部署对接方面存在一些不便,接入新的被监控节点时需要到平台部署机器上去修改配置文件、甚至重启服务来生效。

前段时间研究了下基于Prometheus构建监控系统相关的概念,并以此为基准设计了一个企业级通用的监控告警平台的方案。这里分享一下架构的分析过程以及上述问题的解决思路。

一、平台与业务职责规划

既然是构建通用平台,就会涉及到平台与业务的职责划分的问题,这条线究竟按照什么尺度去画,究竟将平台做厚还是做薄,将直接决定了平台的整体定位:

图片

从构建通用平台的角度而言,很明显厚平台方案更具优势,可以统一整个公司各个业务的监控水平、可以持续的汇聚能力、积累沉淀。

所以,最终选择采用厚平台模式来构建:

二、用户场景诉求分析

先分析下对监控平台的一个整体的诉求情况、以及监控平台需要支持的一些核心业务场景。

图片

从用户角度,收集下不同角色的人员的诉求:

1、管理人员

2、开发人员

3、运维人员

总结下来,用户层面对系统的诉求点主要有:

三、选型与整体设计

作为监控平台,当前主流的一个方案就是Prometheus + Grafana + AlertManager的配套,本次方案也使用此常规配套。

关键设计点:

图片

最终整体构建的全貌图如上所示,橙色的部分为使用开源组件实现,绿色部分为自行构建,作为辅助能力,打通平台的辅助操控能力,降低用户的使用门槛。

四、关键点设计

1、监控平台管理界面方案

作为与用户层面打交道的门面,管理界面端的实现既要承载用户维度的基本使用诉求,更是解决前述说的Prometheus + Grafana + AlertManager使用配置与规则定制门槛过高的关键一环。

基于Prometheus构建的监控平台中,很多都是标配了Grafana作为界面展示。但是Grafana作为通用开源组件,侧重点在dashboard展示能力上,其余一些管理能力较为弱化。

图片

所以在界面的规划上,采用的策略是继续以现有的运维平台界面为主,设计整合grafana的dashboard展示能力。也即对用户而言,入口都是运维平台Poral,一些规则配置、部署操作等统一由运维平台portal提供,只是点击查看某个项目的数据时,跳转到Grafana展示。

2、分层、分组告警实现机制

作为一个监控告警平台,告警能力自然是最关键的一个部分。此部分使用Prometheus已有能力。

具体实施时,为了实现告警的按需推送、精准推送,规划在Prometheus配置采集探针数据的时候,为每个探针配置对应的标签数据,比如项目组、系统、模块、环境类型等等信息。这样就可以进一步按照项目组或者系统维度进行推送给相关人员。

图片

此处规划是在prometheus拉取探针服务的地方进行配置追加固定分组tag信息,而不是由各个探针的指标项中自己上报,主要也是从平台统一控制维度进行考量。

图片

3、对接告警通道设计

Prometheus实现告警有2种可选方案:

其实,不管是Prometheus AlertManager还是Grafana,其配置都需要遵循一定的规则,对于没接触过的人而言,还是有一定的使用门槛的,而且两种配置起来都很不方便,尤其是AlertManager,还得登录部署服务器上去新增或修改配置文件 —— 这个作为一个平台,显然是不可接受的。

所以,从功能与便捷性角度考虑,选定使用AlertManager实现告警能力。作为对其弊端的补偿,规划构建管理配置服务,并在平台统一Portal上提供无门槛易用的配置能力,如下:

图片

用户通过界面上配置好之后,变更的配置文件经由管理配置服务中转,自动写入AlertManager对应配置文件中,由此避免人为修改AlertManager服务端配置文件可能引发的问题。

AlarmManage预置的告警通道主要有邮箱、钉钉、企业微信、或者webhook等。出于可自由定制、以及后续可自由定制的角度触发,此处选择采用webhook的方式:

4、部署与运维管理策略

基于Prometheus的机制,数据上报采用探针的方式暴露相关接口,然后Prometheus定时轮询拉取。

对于探针的部署,考虑可选常规模式与集中模式两种。

1)常规模式

各业务、各中间件节点自行部署自己的探针服务。

2)集中模式

各中间件的探针服务集中部署,打通web端配置逻辑,根据自动部署探针服务。

图片

从实施工作量上进行评估,最终敲定混合使用两种模式:

关于中间探针集中部署:

图片

5、高可用设计

作为一个用来监控其他服务是否正常的告警平台,其自身的高可用性显然是必须要考虑的事情。一旦监控平台挂掉,业务出问题可能就无法第一时间通知到责任人,很容易引发线上事故。

对整个平台的高可用设计,采用分模块不同的策略:

图片

1)Prometheus

2)AlarmManager

3)配置部署服务

高可用、可扩展:集群部署。部署多个进程节点,对外提供统一访问地址。

4)探针服务

非监控平台主体,不做高可用保证,宕机会有告警,满足要求。

五、总体回顾

回顾下整个方案的分析与设计过程,其实整体逻辑很简单,选型确定之后,根据选型结果,以及选型与目标诉求之间的差异度,考虑如何抹平两者之间的差异。也即所谓的“不忘初心、以始为终”。

按照上述策略搭建完成后,整体的监控平台的功能全貌为如下:

图片

本文仅代表文章作者的个人观点,请读者仅作参考,并自行核实相关内容。如有侵权请与我们联系,我们将及时删除。
推荐资讯
进入资讯频道查看更多新闻