记录一次TiDB v5.2.3迁移到v6.1.0的过程
作者:gary
一.环境简介
1.1生产硬件资源
组件 | CPU | 内存 | 磁盘 | 网络 | 私网IP | 公网IP |
TiDB | 8C | 16g | 100G | 万兆 | xxx.xxx.15.4 | 10.147.1.55 |
TiDB | 8C | 16g | 100G | 万兆 | xxx.xxx.15.5 | 10.147.1.56 |
TiDB | 8C | 16g | 100G | 万兆 | xxx.xxx.15.6 | 10.147.1.57 |
PD | 8C | 16g | 100G | 万兆 | xxx.xxx.15.4 | 10.147.1.55 |
PD | 8C | 16g | 100G | 万兆 | xxx.xxx.15.5 | 10.147.1.56 |
PD | 8C | 16g | 100G | 万兆 | xxx.xxx.15.6 | 10.147.1.57 |
TiKV | 8C | 16g | 100G | 万兆 | xxx.xxx.15.5 | 10.147.1.56 |
TiKV | 8C | 16g | 100G | 万兆 | xxx.xxx.15.6 | 10.147.1.57 |
TiKV | 8C | 16g | 100G | 万兆 | xxx.xxx.15.7 | 10.147.1.58 |
Prometheus/Grafana/Alertmanager | 8C | 16g | 100G | 万兆 | xxx.xxx.15.7 | 10.147.1.58 |
1.2生产集群信息
Cluster name | Cluster version |
tidb1 | V5.2.3 |
1.3迁移数据库信息
数据库名称 | 数据量大小 |
db01 | 约40MB |
db02 | 约640MB |
1.4新集群硬件资源
组件 | CPU | 内存 | 磁盘 | 网络 | 私网IP | 公网IP |
monitor/alertmanager/prometheus/tiup | 8C | 16G | 100G | 万兆 | xxx.xxx.48.4 | 10.141.12.180 |
pd1 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.5 | 10.141.12.181 |
pd2 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.6 | 10.141.12.182 |
pd3 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.7 | 10.141.12.183 |
tidb1 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.8 | 10.141.12.184 |
tidb2 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.9 | 10.141.12.185 |
tidb3 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.10 | 10.141.12.186 |
tidb4 | 8C | 16G | 100G | 万兆 | xxx.xxx.48.11 | 10.141.12.187 |
tikv1 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.12 | 10.141.12.188 |
tikv2 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.13 | 10.141.12.189 |
tikv3 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.14 | 10.141.12.190 |
tikv4 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.15 | 10.141.12.191 |
tikv5 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.16 | 10.141.12.192 |
tikv6 | 16C | 32G | 200G | 万兆 | xxx.xxx.48.17 | 10.141.12.193 |
tiem | 8C | 16G | 300G | 万兆 | xxx.xxx.48.18 | 10.141.12.194 |
1.5新集群信息
Cluster name | Cluster version |
tidb2 | V6.1.0 |
二.迁移前提条件
由于客户环境两个TiDB集群网络不相通,只能通过开放网络策略进行生产和新集群之间的连通。
提前进行两个集群配置文件和系统变量参数进行收集,因为两集群版本不一样,有很多迁移后新增或删除的参数进行一个对比修改
三.迁移方案
方案一:tidb-binlog
备份恢复过程中不停机(dumpling+lightning+tidb binlog增量同步)
- dumpling备份生产集群全量数据
- lightning恢复全量数据到新集群
- 生产停业务
- 确认业务已停
- 部署tidb binlog进行增量同步
- 验证数据一致性
- 切应用到新集群
方案二:tidbcdc
备份恢复过程中不停机(dumpling+lightning+tidbcdc增量同步)
- dumpling备份生产集群全量数据
- lightning恢复全量数据到新集群
- 生产停业务
- 确认业务已停
- 部署tidbcdc进行增量同步
- 验证数据一致性
- 切应用到新集群
方案三:dumpling+lightning(建议)
- 生产停业务
- 确认业务已停
- dumpling备份生产集群全量数据
- lightning恢复全量数据到新集群
- 验证数据一致性
- 切应用到新集群
方案四:DM全量数据迁移和增量数据同步
- 部署DM集群
- 进行全量数据迁移和增量数据同步
- 生产停业务
- 确认业务已停
- 验证数据一致性
- 切应用到新集群
因为客户迁移数据量比较少和资源不满足组件搭建,建议使用方案三、而不采用方案一、二、四方式进行TiDB集群数据迁移。
注意:方案三没有部署增量实时同步组件,迁移过程中要保证TiDB集群业务暂停使用来保证数据的一致性。
四.迁移过程
4.1 确认业务已停
业务已停后,tidb开启全局只读模式并重启集群
4.1.1 tidb设置只读
show variables like '%read\_only%';
set global tidb\_restricted\_read\_only=on;
4.1.2重启集群
show processlist;
tiup cluster restart tidb1 -R tidb
4.2逻辑导出导入
4.2.1 Dumpling导出
mkdir -p /data/backup
chown -R tidb:tidb /data/backup
cd /home/tidb/tidb-community-server-v5.2.3-linux-amd64
./dumpling -uroot -P4000 -hxxx.xxx.15.4 -p123456 --filetype sql -t 8 -r 200000 -F256MiB -o /data/backup --filter "db01.\*" >> /data/backup/dumpling1.log
./dumpling -uroot -P4000 -hxxx.xxx.15.4 -p123456 --filetype sql -t 8 -r 200000 -F256MiB -o /data/backup --filter "db02.\*" >> /data/backup/dumpling2.log
#查看日志是否有报错
tail -100f /data/backup/dumpling1.log
tail -100f /data/backup/dumpling2.log
4.2.2 用户和权限导出
vi /data/mysql\_exp\_grants.sh
#执行脚本
chmod u+x /data/mysql\_exp\_grants.sh
sh /data/mysql\_exp\_grants.sh
cat /data/backup/mysql\_exp\_grants\_out\_2022xxxx.sql
4.2.3 Lightning
#先确认新集群对应数据库没有数据
show create database db01;
show create database db02;
drop database db01;
drop database db02;
CREATE DATABASE db01 PLACEMENT POLICY czpool;
CREATE DATABASE db02 PLACEMENT POLICY zjpool;
vi /data/tidb-lightning.toml
[lightning]
level = "info"
file = "/data/backup/tidb-lightning.log"
check-requirements = true
[mydumper]
data-source-dir = "/data/backup"
character-set = "auto"
[tikv-importer]
backend = "local"
sorted-kv-dir = "/sort"
[tidb]
host = "xxx.xxx.48.8"
port = 4000
user = "root"
password = "12345678"
status-port = 10080
pd-addr = "xxx.xxx.48.5:2379"
log-level = "error"
[checkpoint]
enable = true
driver = "file"
dsn = "/data/backup/tidb\_lightning\_checkpoint.pb"
keep-after-success = false
4.2.4 用户和权限导入
修改/data/backup/mysql\_exp\_grants\_out\_20220905.sql
cd /data/backup/
cp mysql\_exp\_grants\_out\_2022xxxx.sql mysql\_exp\_grants\_out\_2022xxxx.sql.bak
vi mysql\_exp\_grants\_out\_2022xxxx.sql
删除root用户的
source /data/backup/mysql\_exp\_grants\_out\_20221108.sql
4.2.5 验证数据一致性
vi /home/tidb/sync-diff-inspector.toml
export-fix-sql = true
[data-sources.tidb1]
host = "xxx.xxx.1.55"
port = 4000
user = "root"
password = "12345678"
[data-sources.tidb0]
host = "xxx.xxx.12.184"
port = 4000
user = "root"
password = "123456"
[task]
output-dir = "/data/output"
source-instances = \["tidb1"]
target-instance = "tidb0"
target-check-tables = \["db01.\*", "db02.\*"]
#执行对比
cd /home/tidb/soft/tidb-enterprise-toolkit-v6.1.0-linux-amd64/
./sync\_diff\_inspector --config /home/tidb/sync-diff-inspector.toml
4.2.6 新集群进行参数修改
因为旧集群修改过系统变量和参数,可能会对应用造成一定的影响。
迁移后,需要根据之前的参数进行判断修改。
4.2.7 应用切到新集群
4.2.8 取消tidb只读
set global tidb\_restricted\_read\_only=off;
set global tidb\_super\_read\_only=off;
tiup cluster restart tidb2
show variables like '%read\_only%';
五、总结
TiDB集群之间迁移方法有很多种,根据客户实际情况进行一个方案选择。
迁移前需要比对两集群参数文件和系统变量,迁移后进行参数判断修改。
用户权限的导出和导入,防止旧集群用户登录不了新集群。
迁移前,最好数据库进行设置只读模式,防止数据还有新增等意外情况。
因为新集群placement rule in放置策略,此导入模式需要数据库为空,删除数据库前提前记录数据库属性,迁移后进行相应配置