0
0
0
0
博客/.../

PingCAP 合作论文登陆顶会 VLDB 2025,发布 TiInsight 系统革新数据分析体验

 TiDB官方  发表于  2025-10-10
原创

导语

近日,PingCAP 与华东师范大学联合撰写的前沿学术论文在第51届国际数据库顶会VLDB 2025上成功发表。该论文题为 《通过大语言模型迈向自动化跨域探索性数据分析》(Towards Automated Cross-domain Exploratory Data Analysis through Large Language Models),提出了一套创新的自动化探索性数据分析(EDA)系统——TiInsight,旨在解决长期困扰数据分析师的核心痛点。

论文核心内容摘要

结合 SQL 的探索性数据分析(EDA)对于从事数据探索与分析的数据分析师至关重要。然而,数据分析师通常面临两大挑战:(1)需要熟练编写 SQL 查询语句;(2)需生成合适的可视化方案以增强查询结果的解读效果。由于其重要性,学界已投入大量研究探索解决这些挑战的方法,包括利用大语言模型(LLM)。但现有方法仍难以满足真实世界的数据探索需求,主要源于以下原因:(1)数据库结构复杂;(2)用户意图不明确;(3)跨领域泛化能力有限;(4)端到端的文本到可视化能力不足。

本文提出了 TiInsight——一个基于 SQL 的自动化跨领域探索性数据分析系统

  • 首先,设计了分层数据上下文(HDC)机制,利用 LLM 归纳与数据库结构相关的上下文信息,这对开放世界 EDA 系统实现跨领域泛化至关重要。
  • 其次,将EDA系统拆分为四个核心组件(即阶段):HDC 生成、问题澄清与分解、文本到 SQL 转换(TiSQL)以及数据可视化(TiChart)。
  • 最后,在 PingCAP 的生产环境中部署了具备用户友好图形界面的端到端 EDA 系统,并开源了 TiInsight 的全部API以促进 EDA 领域的研究。通过真实用户研究的广泛评估,我们证明 TiInsight 相比人类专家展现出卓越性能。此外,TiSQL 在使用 GPT-4 时在 Spider 数据集上达到 86.3% 的执行准确率,在 Bird 测试数据集上的执行准确率达 60.98%。

TiInsight 架构图

在数据价值日益凸显的今天,如何让数据分析变得更简单、更普惠,是整个行业面临的共同挑战。TiInsight 系统的提出,正是对这一挑战的有力回应。通过将复杂的数据库结构和用户意图理解过程自动化,TiInsight 大幅降低了业务人员、数据分析师与海量数据直接对话的门槛。这不仅能极大提升企业数据洞察的效率,也预示了未来数据消费和分析的一种全新范式——更智能、更自然、更高效。

这篇论文的发表,展示了 PingCAP 在利用大语言模型(LLM)赋能数据库、简化人机交互方面的强大研发能力。不仅代表着国际学术界对该项研究成果的高度认可,更凸显了 PingCAP 在人工智能与数据库系统深度融合领域的深厚技术积累和前瞻性战略布局。

我们诚邀各位技术专家、数据分析师及所有对数据科学感兴趣的读者阅读论文原文,深入了解 TiInsight 的技术细节,并共同探讨数据分析的未来。

论文链接:https://www.vldb.org/pvldb/vol18/p5086-zhu.pdf

0
0
0
0

版权声明:本文为 TiDB 社区用户原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接和本声明。

评论
暂无评论