背景：

监控面板中tidb_server_critical_error_total不为0，存在其它数值，表明binlog写入失败，会影响下游系统同步，需要修正。

一、原理分析

官方文档binlog.ignor-error介绍

实际使用中，在使用pump、drainer组件往下游同步数据的时候，我们为保护主库运行，把binlog.ignore-error参数开启，避免因binlog写入失败导致tidb主集群处于不可用状态。

题外话：不要拉踩，Oracle DataGuard是通过archive模式进行同步的，存在一个归档空间满，主库hang住的情况。相较于Oracle，tidb多了一个选择，可以丢弃归档日志保障主库业务的连续性，不保证下游数据和上游数据一致性。

二、现象

2.1 监控位置：Tidb---->server---->skip binlog count

2.2 curl http://127.0.0.1:10080/info/all

2.3 查看binlog_status 状态，此时一般为 skipping

三、处理方式

考虑下游同步的三种情况，分别处理

情况一：同步任务取消

不再需要将数据同步到某个下游，所以下线对应的 Pump\Drainer。

编辑集群配置文件

tiup cluster edit-config {cluster_name}

打开集群配置文件，在server_config下，tidb下添加或修改配置

binlog.enable: false

滚动重启tidb-server

tiup cluster reload {cluster_name} -R tidb

执行命令

mysql -uroot -h {host} -P {port} -p {passwd} -e "SHOW CONFIG WHERE type ='tidb' and name like 'binlog%'"

验证两指标binlog.enable和binlog.ignore-error的状态为true

情况二：文件同步任务异常

drainer同步方式为file文件，下游读取文件异常。

修复过程（二选一）：

使用 tidb-server 的 API，然后尽快安排重新全备。

在tidb服务器上对binlog进行recover，

curl http://{TiDBIP}:10080/binlog/recover

重启 tidb-server，然后尽快安排重新全备。

情况三：灾备同步任务异常，官方文档

drainer同步方式为binlog文件，灾备中备库数据异常。

恢复后查看监控checkpoint是否变化，若变化则正常。

四、skip binlog出现的常见情况

3.1 pump磁盘空间满了

导数时需要注意日志空间，同时需要关注pump中stop-write-at-available-space参数，默认为10G。有可能不是空间满，而是pump参数设置不合理导致。

3.2 大事物超过grpc限制

引用官档

五、延伸问题

skip的binlog如果存在ddl，会导致drainer异常重启，报错 not found table id

社区案例：https://asktug.com/t/topic/575578/1

监控告警处理之tidb_server_critical_error_total

背景：