博客 - 血泪教训 TiKV多副本丢失unsafe-recover恢复记录

【是否原创】是
【首发渠道】TiDB 社区

一、问题背景

某集群替换5台机器中的3台后，由于store空间使用率已超过阈值，旧节点上的region和leader有一部分(约2000*9个左右)未能完全迁移到其他节点(通过grafana可观察到)，导致旧节点的tikv一直处于pending offline状态。为尽快清理旧机器，某天早上失智直接force scale-in强制缩容了所有3台旧机器上的tikv实例。

强制缩容一段时间后，业务报某些查询出现“Region is unavailable ”9005编号的报错。查看tidb日志找到一个具体的问题region，发现其leader处于被强制缩容的store上，并且3副本中2副本已丢失，导致leader无法选举。

推测集群中目前存在一些2副本丢失或3副本全部丢失的region，需要执行多副本丢失恢复流程。

二、恢复准备

查看官方提供的《多副本丢失处理方案.pdf》文档，需要先找出3副本丢失的全部region ID（因为重建region时会用到）。直接使用文档中提供的下述pdctl --jq语句发现查询多副本丢失的region会返回为空，因此需要使用其他方式统计出3副本丢失的region ID列表。
pd-ctl -u http://{pd_ip}:2379 region --jq=".regions[] | {id: .id, peer_stores:[.peers[].store_id] | select(length < 2)}"

2.1. 通过pdctl获取到所有旧机器上的store ID列表。
pdctl -u {pd_ip}:2379 store --jq=".stores[]|{id: .store.id, address: .store.address, status: .store.state_name, region: .status.region_count, leader: .status.leader_count}" | grep Offline // 找出位于旧机器上的所有store_id，jq功能需要yum -y install jq开启

2.2. 通过查询/pd/api/v1/regions接口，过滤出所有3 peer全部位于上述store ID列表中的region，此类region3副本已丢失。

下述为查询的简易脚本，替换其中的解释性代码为实际值：
findEmptyRehion.py (999 字节)

2.3. 将2中的region列表存于emptyRegions.txt文件中(见上述代码)

三、恢复流程

按文档流程执行如下：

3.1. 关闭pd调度
// 记录当前调度参数，pd-ctl 中执⾏ config show // 关闭调度 scheduler pause balance-leader-scheduler scheduler pause balance-region-scheduler scheduler pause balance-hot-region-scheduler config set replica-schedule-limit 0 // 查看调度是否完成 operator show
使用下述命令关闭pd调度更为稳妥(记下原值方便之后恢复)：
config set leader-schedule-limit 0 //4 config set region-schedule-limit 0 //4 config set replica-schedule-limit 0 //8 config set merge-schedule-limit 0 //8 config set hot-region-schedule-limit 0 //4

3.2. 拷贝与集群版本相同的tikv-ctl到所有正常tikv节点
scp .tiup/components/ctl/v4.0.8/tikv-ctl <新机器>:/home/tidb/

3.3. 停止所有tikv节点
tiup cluster stop {cluster-name} -R tikv

3.4. 在所有正常的tikv节点执行下述remove-fail-stores指令
./tikv-ctl --db /path/to/tikv-data/db unsafe-recover remove-fail-stores -s <2.1步骤中得到的store-id列表，逗号分割> --all-regions // 单机多store时针对每个store执行一次 // 实测速度较快，单store 1TB左右的目录可以在2s内返回

3.5 恢复空洞region(3副本丢失的region)
任意找一个正常的store：
for region_id incat emptyRegions.txtdo ./tikv-ctl --db /path/to/tikv-data/db recreate-region -p {pd_ip}:2379 -r $region_id done // 谨慎起见先echo下生成的命令语句 // 实测恢复速度约为1.5s一个新region，可据此估算全部耗时

3.6 启动tikv并恢复scheduler
tiup cluster start {cluster-name} -R tikv
scheduler resume balance-leader-scheduler scheduler resume balance-region-scheduler scheduler resume balance-hot-region-scheduler config set replica-schedule-limit 2048 // 通过修改limit禁用pd调度的改回原值即可

四、后期检查
// 若存在数据索引不⼀致情况，重建索引，下述admin指令返回错误时即需要重建 // 重建时先创建替代索引，之后重建旧索引，最后删除替代索引 // RawKV 集群不需要执⾏该步骤 ADMIN CHECK TABLE tbl_name [, tbl_name] ...;

五、事故回放

默认tidb为3副本架构，实际部署中基本不会修改，因此当一次性替换或下架超过2台机器时，需要考虑多数副本丢失的问题。

一般来说替换过后需要等待新实例状态变为tombstone才可以缩容，但本例中由于磁盘使用率高导致旧机器中剩余一些region未能迁移到新节点，实例状态保持为pending offline。此时应当考虑放大磁盘空间阈值或扩容来确保剩余的region被调度走。

本次事故中出现多副本丢失的region个数有7005个，其中5715个为2副本丢失，1290个为3副本丢失，这1290个region的数据已经永久丢失只能通过其他方式补回。

本次事务中多副本丢失的region可以通过查询information_schema.TIKV_REGION_STATUS来获取其所属的表，幸运的是这个系统表所属的region未出问题，据此查到本次多副本丢失的region涉及3个业务表，可以缩小故障范围方便之后的校验和数据补全，还可以查看region存放数据还是索引以便评估损失的数据记录数。

最后，感谢@这道题我不会以及他的5个小伙伴的鼎力支持。😭