道友请留步
[hdslb]
要不要使用 RDBMS 来处理您的问题
rdbms 本身是不适合很适合存放数组数据,
如果真的考虑使用 rdbms 处理这种情况,有几种思路。
预聚合操作
类似 kylin 的 cube 模式,或者 clickhouse 拼宽表的行为,可以考虑预先定义处理的模型。
无论实时数仓,还是离线数仓,本质上都是数仓,都需要建模。
如果暴力的想从 ods 层抽取报表的话,其实难度还是挺大的。
将逻辑计算从数仓中剥离
其实您已经在 spark 中进行了 explode 操作,如果可以考虑将 distinct 的业务逻辑也放在 spark 中,
将结果落盘到…