个人资料 - shiyuhang0

从 Oracle 到 TiDB 的收益与迁移全流程，8 月 21 日，TiDB vs Oracle 线上 Meetup 一起探讨！参与互动可获得积分 & 新款周边！

私信

shiyuhang0

于 2021-12-15 加入

获赞

回答

文章

徽章

11/89

点亮更多徽章

回答 45 提问 5 文章 6

全部

Tispark未按预期返回数据

能否 tispark 升级到 v3.2.3 试一下是否还有问题？ https://github.com/pingcap/tispark/releases/tag/v3.2.3

2 天前

2024年了，TIDB Serverless版本可以在国内使用了吗？

可以了，上 aliyun 了

3 个月前

查看tikv-client-java的版本支持对应的tidb版本？

没有官方说明。但据我了解能支持 <= v6，更加新的版本可能要自己评估是否能接受可能的不兼容。但是最好能用 client-go 就用 client-go，因为他稳定性可靠性有保障

7 个月前

dumpling 导出数据文件过小

-r 开启表内并发，dumpling 并没有聚合的逻辑，这个并发处理的数据量少，文件就小。 -r 开启后如何拆分数据是自动的，不是外部能控制的 -F 可以理解为每个并发生成的文件的上限

7 个月前

2024年了，TIDB Serverless版本可以在国内使用了吗？

一直可以使用的，https://tidbcloud.com/. 只是托管在 AWS 上，开放了 5个 region。国内可以选最近的新加坡，相当于数据库部署在新加坡，延迟肯定稍高，你可以自己测具体多少延迟

7 个月前

TiDB 为什么没有物理导出？

emm，看了大家的回答，感觉可能是我表述的不太对。我是这么理解的： Backup&Restore：纯从 TiKV 导入导出 SST file lighting 的物理导入模式：支持各种格式的导入。首先需要把 sql/csv/parquet 等格式编码处理成键值对，然后再直接插入 TiKV Dumpling: 仅支持从 TiDB 读取。我的问题是，为什么没有这样一个工具：当想导出某一个大表时，从 TiKV 直接读取，然后解码成 sql/csv/parquet 等格式

9 个月前

TiDB 为什么没有物理导出？

BR 那不一样啊，只能在 TiDB 之间做备份恢复。这就和即使有 restore ，还有 lighting 的物理导入道理一样。lighting 的物理导入可以支持各种格式。虽然有 backup 了，但他并不能导出为其他格式，直接用于分析或者导入到其他数据库。

9 个月前

tispark 连接8.1tidb 异常问题： ERROR SparkSQLEngine: Failed to instantiate SparkSession: Error scanning data from region.

咱们业务上能否切换成 spark jdbc 写入呢，如果可以推荐做一下切换。错误原因主要是写入前的 scatterRegion （预切region）失败。考虑到这个错误只在 TiDB 8.1 上出现，可能是兼容性方面的问题，这方面目前官方也没有保证和 TiDB 8.1 的兼容性。时间变长可能是中间有许多错误，在重试。

1 年前

spark-sql 执行 delete 报错

It should be fixed in this pr Support localdate convert to date in datetype by shiyuhang0 · Pull Request #2780 · pingcap/tispark · GitHub

1 年前

tispark查询数据量和直接tidb查询数据量不一致

Fix in this PR https://github.com/pingcap/tispark/pull/2775.

1 年前

【TiDBer 唠嗑茶话会 110】 PlanetScale 不免费后，选什么数据库好？

之前写了一个小 blog

1 年前

用pytispark写入从tidb的一个表写到另一个表性能很差

写时候的读取是用于冲突等判断根据之前的 bechmark, 4000w 的数据用 tispark / spark jdbc 应该都是分钟级别的。如果不需要全局事务还是建议 spark jdbc 你现在的并发度是多少，benchmark 里的是 32。如果低了可以增加 executor 数量/核心数来增加并发

2 年前

tispark, insert 受 spark.tispark.replica_read 参数影响

应该是设计的时候没有考虑好，我觉得这个参数不应该影响写入。提了一个 issue，https://github.com/pingcap/tispark/issues/2756。但这个问题很好规避 fix 不是很急，我有空再搞一下，或者大家有兴趣也可以贡献

2 年前

文档优化建议，Follower Read

这里上下文就是 learner 了

2 年前

pyspark 提示 warn：Unable to find

感觉确实是日志级别不太合适，但不影响正常功能。欢迎在 client-java contribute

2 年前

tispark 如何指定使用 tikv/tiflash

spark-sql 还不支持相应 hint，也无法在 spark-sql 中进行语句级别的配置。目前应该只能：在配置文件中配置，但这就不是语句级别的使用 spark-shell/pyspark 等可编程的方式，可以进行语句级别的配置 spark.tispark.isolation_read_engines https://github.com/pingcap/tispark/blob/master/docs/userguide_3.0.md

2 年前

spark读取tidb,所有select出来的数据都在一个executor中，最后导致了oom

https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html JDBC 可以参考这里手动进行分区

2 年前

【已结束】倒计时！七夕节为爱挑战！“爱有多深，TiDB 就有多稳”TiDB 社区为你准备好了给另一半的“七夕节”礼物，回复“我要挑战”参加吧！

我要挑战

2 年前

tidb 分区表使用tispark越跑越慢，怎么回事？

还没有支持 unix_timestamp 的分区裁剪。 https://github.com/pingcap/tispark/blob/master/docs/userguide_3.0.md#partition-table-support [image] 可以到 https://github.com/pingcap/tispark/issues 提一个 feature request

3 年前

没有更多内容了