作者:姚维
编者按
近期,由 DataFun 主办的 DA 数智大会深圳站在深圳机场凯悦酒店盛大召开,聚焦 “数智驱动 场景创新 务实前行”,探讨 AI 与数据技术融合实践前沿趋势,众多业界重量级嘉宾齐聚,共话大模型应用、Agent 技术等热点。
TiDB 中国区研发负责人姚维受邀出席首日下午 “降本增效:数据架构技术迭代实践” 专场,围绕 AI 驱动下的数据系统演进展开深度分享,从团队亲身实践出发,剖析从 “存储为中心” 到 “多模融合” 的技术变革逻辑。
以下为姚维现场分享实录。
在 AI 技术迅猛发展的浪潮中,数据库厂商如何抓住机遇,为 AI 应用提供更优质的支撑?TiDB 通过一系列深入探索,从 RAG 实践到多模数据库的构建,再到实际案例中赋能企业降本增效实践,给出了自己的答案。
一、AI 浪潮下的探索之路:从 RAG 实践到架构思考
AI 的爆火,尤其是 DeepSeek 在年初的热度,让 AI 技术从圈内走向圈外,连普通大众都感受到了其巨大变化。传统企业也积极投身于AI驱动的业务转型:CEO 们热情高涨,期待利用AI技术赋能现有业务、提升运营效率;而 CIO 们却面临现实难题——企业中大部分是结构化数据,还有很多文档数据未被 AI 有效利用。
作为数据库厂商,TiDB 自然不愿错过这波 AI 浪潮。最初,团队选择 “不务正业” 地开发 AI 应用,实则是为了探索数据库在 AI 时代如何更好地服务开发者。这一探索从一个问答机器人开始,初衷是解决 DBA 不足、客户重复提问的问题,将内部数据、工单、文档等喂给机器人来辅助回答。但更深层的目的,是通过这个过程研究数据库在 AI 应用中的角色与作用,希望提高能支持 RAG 应用的数据底座的质量和易用度。
RAG 技术的探索与演进
以构建 TiDB 知识问答机器人为例,经历了以下历程:
初始尝试:朴素 RAG 的局限
TiDB 团队最早在 2023 年底就开始探索 RAG(检索增强生成)技术,当时选择了 LlamaIndex 框架。其工作流程看似简单:构建知识库,获取上下文,再将 context 丢给大模型。但实际应用中,问题很快显现,向量搜索的召回率不尽如人意,原本以为向量能实现精确搜索,实际却难以召回所需信息。为解决这一问题,团队引入了关键词搜索(如全文索引),采用 “混合召回” 手段,效果有所提升,但面对复杂问题仍力不从心。
文本切分的玄学:数据处理的关键难题
文本切分(Chunking)是影响检索效果的重要环节,却没有通用标准,如同玄学。按标题层级、行数、语义等不同方式切分,效果差异很大。Chunk 太小或太大,都会影响召回率。
后来微软 2024 年的一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》给了 TiDB 团队启发:除了文本分片召回,还可通过实体间的关系进行召回。这促使团队将目光投向知识图谱。
知识图谱的引入:突破语义搜索瓶颈
TiDB 使用 DSPy 提取文档中的 Entity(实体)和 Relationship(关系),并将其存储在数据库中,一张表存概念,另一张表存关系,这样就构建起了知识图谱。
在执行 Graph RAG 搜索时,先将用户问题 embedding,通过向量搜索找到相关实体,再检索这些实体的一度关系。这有效解决了语义搜索难以处理关联度高但语义差异大的信息的问题,比如 “谷歌” 和 “微软”,虽语义不直接相关,但通过 “互联网公司”“纳斯达克上市公司” 等关系可建立联系。
知识图谱的动态优化:提升精确度的关键
大模型处理文档时,因注意力限制,可能重复提取信息单元,导致知识图谱存在冗余。TiDB 通过两种方式来进行迭代优化:
- 手写算法:计算信息单元间的相似度(如向量距离、关系交叉度等),合并高度相似的信息单元。
- 大模型优化:设定图质量标准,基于千问模型,采用 GRPO 强化学习算法进行训练,让大模型自动优化图结构,使信息单元聚类更清晰,关系更准确。
随之而来的新问题:向量检索,关键词检索,知识图谱检索先使用哪个?考虑到不同检索方式的原理、适用场景差异明显,选择顺序会直接影响检索效率与结果质量,这成为多模数据检索流程中亟待解决的关键决策点。
Agentic RAG:让检索像人类思考一样智能
面对多种召回方式,TiDB 引入了 Agentic RAG,使其能动态选择检索策略。如同人类思考问题,会先尝试一种方法,若效果不佳再换另一种。同时,加入 Human-in-the-Loop 机制,当检索过程难以收敛时,引入人工反馈,进一步优化结果。这种动态调整的能力,让 RAG 系统的检索效果大幅提升,能更好地应对复杂问题。
二、从“存储为中心”到“多模融合”:TiDB的新一代AI数据架构
在探索适配 AI 需求的数据系统时,“如何设计适合 RAG(检索增强生成)的数据库” 成为关键命题。这需要构建一套完整的流程框架,从理解用户意图,到多路数据召回,再到结果重排与优化,各环节协同运作,而底层存储的选择与设计更是核心支撑。
原生向量检索:高效处理向量数据
TiDB 支持原生向量存储与检索,向量类型分为固定长度和不定长度,具有以下优势:
- 支持向量索引,采用 HNSW,平衡了搜索速度和精度,虽占用较多内存,但速度快、精度高。
- 可指定向量维度,适应不同模型的输出需求。
- 存储格式更优,无需通过中转 gateway,直接在数据库内核实现向量操作,提升效率。
全文索引:专业的文本检索能力
全文索引是处理文本检索的专业工具,对比向量搜索主要关注语义近似(如相同种类内容),而全文搜索主要关注准确匹配(如具体产品名)。两者结合,能有效满足复杂的混合搜索查询需求,显著提升 AI 应用的回答质量与准确性。TiDB 虽为后来者,但仅用 2-3 个月就实现了相关功能。其支持多语言文本检索,包括英文、中文、日文、韩文等,非常适用于 GenAI 的 SaaS 服务,另外TiDB 也采用 BM25 算法提升搜索相关性,还能与主流 AI 框架良好集成,方便开发者使用。
多模融合:一站式解决多样化数据需求
TiDB 将向量检索、全文索引、知识图谱存储等功能融合,成为多模数据库。开发者无需为不同数据类型部署多个数据库,降低了系统复杂度和维护成本。
三、降本增效看得见:从架构优势到客户价值
部署模式创新:灵活适应不同场景
AI 时代企业场景差异巨大,有的要支撑全球化业务的大规模分布式集群,有的追求小而快的 AI 功能验证。为让多模数据能力真正服务于 “降本增效”,因此 TiDB 为企业提供了多种部署模式,满足不同规模的需求:
- 标准模式:弹性好,组件低耦合,适合大规模扩展。
- 敏捷模式:资源门槛低,单机即可部署,能支持所有 AI 所需功能,性能优于传统单机数据库(如 MySQL),在 sysbench 测试中,各项操作的 QPS 均表现更优。
实际案例:降本增效看得见
- Dify.AI 案例:作为支持众多个人开发者的 AI 框架,初期使用多个数据库,随着开发者数量增长(达几十万),成本剧增。迁移到 TiDB 后,借助其多租户支持和多模能力,开发速度提升 4.6 倍,成本降低 60%。
- 销售营销助手案例:该应用需要处理向量、文本等多种数据,TiDB 的一站式部署让其架构交付速度大幅提升,仅需一台服务器安装 TiDB,即可满足所有数据需求,助力应用快速落地。
这些案例表明,TiDB 的多模架构能支撑不同 AI 应用,且在降本增效方面效果显著。
总结:AI 时代数据库的未来方向
TiDB 的探索表明,AI 时代的数据库需具备多模融合能力,能同时处理向量、文本、结构化数据等多种类型,支持向量检索、全文搜索、知识图谱等多种操作。同时,要融入智能检索机制(如 Agentic RAG),提升对复杂问题的处理能力。
通过这样的技术革新,TiDB 不仅能为 AI 应用提供坚实的数据支撑,还能帮助企业降本增效,在 AI 浪潮中占据有利地位。未来,随着 AI 技术的进一步发展,TiDB 将助力更多企业在更广泛的场景中发挥关键作用,持续推动 AI 应用的落地与创新。