告警阈值重要性
在日常运维过程中,数据库监控告警对于维护数据库系统的稳定性、性能和安全性非常重要。那么如何调整好一个合适的监控告警的阈值就非常重要。 调太高了,会错过重要的告警内容,调太低了,又会被密密麻麻的告警淹没。
TiDB监控告警架构
- Prometheus Server:用于收集和存储时间序列数据。
- Grafana :作为可视化组件将 prometheus 收集到的数据进行展示
- Alertmanager:用于实现报警机制。
修改告警阈值步骤
- 获取 告警规则 rule 文件 ,位置在 prometheus 的 depoly 目录下conf 目录中
- tiup 修改集群配置文件,添加 rule_dir ,注意此处 rule_dir 指定的目录为 tiup 中控机上面的目录
- 创建 rule_dir ,并将第一步获取到的 rule 文件拷贝到第二步创建的目录中
[tidb@vm172-16-201-73 ~]$ cd /tidb-deploy/cc
[tidb@vm172-16-201-73 /tidb-deploy/cc]$ mkdir rule
[tidb@vm172-16-201-73 /tidb-deploy/cc]$ cd /tidb-deploy/cc/prometheus-39090/conf
[tidb@vm172-16-201-73 /tidb-deploy/cc/prometheus-39090/conf]$ cp *.yml /tidb-deploy/cc/rule/
- 修改告警阈值
此处用 TiDB_tikvclient_backoff_seconds_count 这个指标举例
这个指标属于 tidb 的告警,那么就是要修改 tidb.rules.yml ,此处不清楚想修改的指标含义的可以自行官网搜索。
找到 tidb.rules.yml 中的 对应指标并修改,将 10 修改为你想调整的值。
- Reload 监控组件使配置生效
tiup cluter reload tidb-test2 -R prometheus
至此,监控告警阈值修改完成
特别提醒
- 一定要创建单独的 rule_dir ,不能直接对 prometheus 自带的 rule_dir 进行修改。
- 创建的 rule_dir 位置是位于中控机的目录
- 建议阈值调整小步慢跑,多次调整。不要一次调整过大或过小,避免丢失重要告警。