从 TiDB 4.X 开始,Grafana 监控页面里带上了 TiKV-FastTune 面板,目的是为了不需要任何学习成本、快速(1-10min)地找到 TiKV 的性能抖动或退化的原因。
使用很容易,当 TiDB 有性能抖动时,如果排查过认为是存储层问题,那么就打开 FastTune,逐个面板浏览,寻找上下两条曲线吻合的情况,有的话,那么这个面板的标题就是出问题的原因。
核心设计思想:
- 尽量减少用户(定位问题时)需要知道的信息,把大堆的 TiKV 面板缩减为有限几个。
- 把相关的“因”和“果”绘制成同一个面板的上下两条曲线,让用户一眼能辨别出问题。
FastTune 目标是“快速地定位常见问题”而不是“找到所有问题”,如果没找到,还是得回到原本浩瀚的面板中慢慢查。
文末的 doc 是 FastTune 面板的介绍,主要内容如下:
文档比较长,但不用担心:
- 第一条 TiDB tuning and maintenance 主要是一些个人抱怨和看法,略过无妨。
- 粉色的两条是比较重要的概念概述,值得看,很短。
- TiKV architecture 是内部实现与性能相关的要点,值得看,但略过也无妨
- 红色两条是手册,可以在碰到问题后过来查阅对应面板的具体细节,不必逐页细看。
文档内提供了较多的超链按钮方便在不同页面间传送,一般在页面最上方,灵活使用可以提高效率。
如果对 TiDB/TiKV 架构、性能感兴趣,推荐通读除手册外的部分。
文件下载:Fast Tune_ Laying Down a Stepping Stone on Our Path (pub-ver).pdf