在测试环境,由于资源限制,dm-worker 状态为offline。(这里的测试环境,没有部署grafana,alertmanager,忽视即可)
在没有找到其余恢复方法的情况下,采用先缩容后扩容的方法,进行恢复
1)对有问题的节点进行缩容
#缩容有问题的节点,dm-test-1121为集群名,注意替换;10.0.0.136:8262为节点名,注意替换
tiup dm scale-in dm-test-1121 -N 10.0.0.136:8262
tiup dm scale-in dm-test-1121 -N 10.0.0.137:8262
#若不知晓集群名,可执行以下命令获取。
tiup dm list
最后有如下输出,则缩容完成。节点上的data,deploy目录无需清理。
Scaled cluster `dm-test-1121` in successfully
此时集群状态如下:
#查看集群状态
tiup dm display dm-test-1121
2)执行扩容操作:
#扩容配置文件如下:
tidb@testdb-pd:~/dm$ cat dm_scale.yaml
#一些global 配置,用户,端口,目录信息,可参考部署dm时的拓扑文件。
global:
user: "tidb"
ssh_port: 22
deploy_dir: "/home/tidb/dm/deploy"
data_dir: "/home/tidb/dm/data"
# arch: "amd64"
server_configs:
master:
openapi: true
#下面是需要扩容的节点信息。
worker_servers:
- host: 10.0.0.136
- host: 10.0.0.137
#执行扩容操作:
tidb@testdb-pd:~/dm$ tiup dm scale-out dm-test-1121 dm_scale.yaml
有如下输出,表示集群扩容完成。
Scaled cluster `dm-test-1121` out successfully
集群此时已恢复,查看集群状态如下: