Grafana汇总报表
–2020-09-23 刘春雷
1、背景
自58同城部署TiDB数据库后,集群数量快速增长,截止目前,已经 52 套集群,300台服务器;
由于TiDB的监控都是每套集群单独部署的,单个Grafana只能看单套集群的监控,很全面,但面对众多的集群,如何快速方便的查看所有集群的重要指标呢?如何节前快速排查呢?
2、实现方式
58同城TiDB数据库,当前监控展示实现方式为:任务抽取prometheus的监控数据至当前监控系统,zabbix实现,再通过zabbix接口,拉取数据,在内部数据库平台CDB上展示,给DBA及开发人员查看,同样查看方式为1套集群。
思考实现方式:
【1】、通过zabbix拉取所有集群重点监控至数据库平台CDB进行展示,但因中途经转zabbix,实效性会有影响, 放弃~
【2】、通过每个监控图的分享模式,例如iframe方式,整体汇总指定时间段的监控图,测试几套集群的套可以,但50多套同时通过此方式查看,效率比较差, 放弃~
【3】、新搭建1套独立的grafana,配置所有集群的prometheus数据源,load重点监控的json文件,例如overview,以集群为单位,进行展示, 可以~
【4】、但3方式快速查看所有集群的重点监控,还是需要点击、回退等,比较麻烦。便进行新建dashborad,添加图表,将重点监控图的配置复制上,然后查看json配置,写个小工具,生成所有集群的此json文件,替换配置即可,这样就可以快速查看所有集群的重点监控项了, 可以~
如果大家有更好的方式,也可以相互交流下哈~
3、效果
单独搭建grafana,界面如下,分为: