专栏 - TiKV 组件 Raft 协议底层实现深度解析

一、存储架构与 Raft 日志管理

TiKV 采用分层存储架构实现 Raft 协议的高效运作，其核心设计围绕 RocksDB 引擎构建。每个 TiKV 节点部署两个独立 RocksDB 实例：

raftdb：专用于存储 Raft 日志条目，采用顺序写入模式优化日志追加性能。每个 Region 对应独立的 Raft 日志流，通过逻辑隔离保证不同 Region 的日志独立性。
kvdb：存储用户数据及元信息，包含四个关键 Column Family：
- raft 列族：记录 Region 元数据（如副本分布、状态机版本），采用低频率更新策略以减少 IO 压力。
- lock 列族：管理分布式事务锁，通过内存锁表与持久化存储结合实现悲观锁的快速获取与释放。
- write 列族：存储事务提交记录，采用 MVCC 机制维护版本链以实现高效的历史版本查询。
- default 列族：保存用户实际数据，通过 Key 编码策略实现 Region 内数据的局部性优化。

日志持久化过程采用双阶段提交机制：先将日志写入 raftdb 的 WAL（Write-Ahead Log），随后异步提交至 kvdb。此设计在保证数据一致性的同时，通过分离日志与数据 IO 路径提升并发吞吐。

TiKV 实现 Raft 选举优化策略：

日志复制过程采用流水线优化：

TiKV 实现 Joint Consensus 算法处理成员变更：

动态分裂策略：当 Region 大小超过阈值（默认 512MB），触发 Split 操作生成子 Region。分裂点选择基于 Key 分布热点检测，避免产生过大范围查询。
共享线程池：所有 Raft Group 共享全局线程池，通过优先级队列调度不同 Region 的 IO 请求。关键系统操作（如 Leader 转移）享有更高调度优先级。
局部性优化：将同一物理节点上的多个 Region 副本分配到不同磁盘路径，利用 NUMA 绑定减少跨核访问延迟。

事务路由缓存：TiDB Server 维护 Region 路由表，将事务涉及 Key 预先映射到目标 Region，减少 PD 元数据查询次数。
并行提案：跨 Region 事务拆分为多个单 Region 提案并行提交，通过 2PC 协议保证原子性。每个参与者 Region 独立执行 Prepare 阶段，由协调者统一触发 Commit。

Raft Engine 替代方案：新一代日志引擎采用 LSM-tree 优化结构，相比原生 RocksDB 减少 50% 写放大。通过分离日志索引与数据块，实现快速日志检索。
异步快照生成：后台线程定期生成增量快照，使用 zstd 压缩算法将快照体积降低至原始数据的 30%。传输过程采用分块校验机制，支持断点续传。

PD 通过 Raft 协议维护集群元数据，与 TiKV 形成双层共识体系：