从tidb5走到tidb8,我们是使用者,见证者,肉眼可见tidb越来越好。看到未来规划规划部分,相信tidb能走在国内乃至世界的数据库前列!
支持同步ddl,根据ddl然后自己处理一下再处理变更
太有必要了,我要严重呼吁增加物化视图
场景描述:
目前做实时数据开发,基于tidb+flink 如果有物化视图,基本不需要搭建ticdc ,kafka,flink , 还有flink ck 存储的hadoop 。
目前基表很多,但是一般join 需要2-6张表这样子
,这些表全部是持续写入。
更新延迟秒级别。
单个物化数据量不足TB级别,到几兆(维度表)到几百G(多事实聚合) 都有。
表均存在更新,删除比较少,我们这里目前将删除进行打flag 软删除。
痛点描述:
系统目前通过基于ticdc+kafka+flink+tidb 实时 开发处理,由于flink sq…
ticdc的定位是什么?tidb之间的数据同步吗?因为没有增量加全量同步,所以有这个疑问。同时未来的定位会变化吗?
删除重建,名字命名不一致看下,感觉这个事件非常诡异
我有个更快的方式,用tikv scan直接读取,不过单线程读,读出来写可以多线程写,不过要写代码
是Maxwell格式吧😂,兄弟7.已经不维护了,之前测试Maxwell格式7.,8.都有问题,我用5.,目前没有遇到问题
这边看到执行用户名kfzdba,这个用户是谁在用?如果可以, 尝试一下删掉这个用户,再看下
MySQL 不同,TiCDC 则实时监听上游 TiKV 各个 Region Raft Log 的信息,并根据每个事务前后数据的差异生成对应多条 SQL 语句的数据变更信息。TiCDC 只保证输出的变更事件和上游 TiDB 的变更是等价的,不保证能准确还原上游 TiDB 引起数据变更的 SQL 语句。
来自ticdc简介,
不可能完全还原上游变更的SQL语句,因为ticdc与MySQL Binlog不一样,MySQL Binlog有直接记录上游SQL的协议,ticdc是直接读取tikv的日志,行级别滴哦🙄
这开发不能要了,会不会过两天让命名驼峰命名法,你咋整?
将变更数据从外网传输到内网,后面的操作是呢?存储格式是什么格式呢,txt? 一条变更数据一行?cdc 本身配置不支持 文件格式,你这样只能绕路去做,比如写到kafka,然后从kafka 读取数据到文本中。个人建议,打通内外网,数据能联通。如果敏感数据,借助中间服务器,不直接联tidb
查看一下tidb 有没有频繁 ddl 操作:tidb cdc 实测对于ddl 操作处理极慢。对应的的现象,我猜测一下,ddl 操作导致 tidb cdc 变慢,同时 ddl 操作也会导致 cpu 上升,变慢了,你停下来了,然后ddl 操作完成,你启动了ticdc ,速度变快了,循环往复