0
0
0
0
博客/.../

一个数据库搞定 AIGC 全场景多模态数据存储,为什么 TiDB > PostgreSQL?

 TiDB官方  发表于  2025-10-22

引言

在人工智能生成内容(AIGC)浪潮席卷而来的当下,数据存储与管理面临着前所未有的复杂挑战。传统的数据库架构在处理海量的多模态数据,尤其是非结构化数据时,往往显得力不从心。

英科融合(重庆)科技副总经理雷宇作为一位拥有二十余年开发经验的资深程序员,在深耕数据领域多年后,敏锐地捕捉到 AIGC 带来的新机遇,与团队共同构建了Alpha Fusion 这一 AIGC 平台。本文,他分享了 Alpha Fusion 在数据库选型上的思考与实践,深入剖析了为何在“一个数据库搞定 AIGC 全场景多模态数据存储”这一目标下,为什么选择 TiDB 。

Alpha Fusion 平台:人人皆可创作的 AI 设计工具

Alpha Fusion 平台的核心理念是“以人人都会 PS”为设计目标,致力于降低 AI 技术的使用门槛,让用户仅通过输入提示词即可生成所需图片。该平台以 AIGC 的“文生图”和“图生图”技术为核心,旨在打造一个零门槛的 AI 设计工具,广泛应用于广告、电商、教育及企业文宣等领域,实现“10 秒出图,智能适配业务场景”。

通过将客户的语料、提示词、问答以及最终交付的产品全部转化为向量,并将其反哺至 AI 模型,Alpha Fusion 平台能够为客户输出高度定制化的产品。这种深度绑定 TiDB 向量能力的机制,使得平台能够深入理解用户需求,提供个性化服务。

在技术特点上,Alpha Fusion 内置了多场景工作流,如港风、动漫、赛博朋克等风格,并能基于用户历史操作数据推荐高转化率的设计模板。此外,平台还支持 AI 模型的微调,为企业客户提供定制化的训练数据和 ControlNet 控制生成,以打造品牌专属的 AI 画师。未来,Alpha Fusion 2.0 版本还将基于 TiDB 实现与大模型的深度集成,进一步发展人机共创模式。

平台架构与数据库选型之思

Alpha Fusion 的产品架构简洁而高效,主要分为五层:前端展现层、接口层、AI 层、以及与 AI 层深度绑定的数据库层。数据流以 Task ID 为核心在各层间传递,接口层通过 Redis 实现队列服务进行调度。AI 层不仅负责图片和视频的生成,还具备调度功能,并会在生成用户图片前读取 TiDB 中用户的历史生成信息向量作为参考,以反哺和补充用户的提示词。

image.png

Alpha Fusion 产品:AI 层+数据库层都用 TiDB

在探讨数据库选型时,雷宇先生和团队首先明确了人、AI 和数据库各自的角色定位。AI 的特点在于其快速、不假思索地给出回答,然而在实际应用中,尤其是在与客户的交互中,AI 首次交付的图片一次性交付率并不高。这在某种程度上表现为设计师缺乏 AI 思维,难以准确地将客户需求转化为AI可理解的提示词的问题。

为此,Alpha Fusion 引入了“人在回路”(Human In The Loop, HITL)的概念。在 1.0 版本中,AI 完成 80 %的工作,剩余 20 %由人类进行微调和审核。然而,这种模式仍存在 AI 与人脱节的情况。因此,团队正在积极探索 2.0 版本的人机共创模式,即 AI 与人共同完成目标。例如,当用户提出需求时,AI 会主动引导用户补充细节,直至形成一个精确的生成提示词,最终再由 AI 生成产品。这种人机协作模式,使得 AI 和人能够优势互补,共同提升创作效率和质量。

image.png

Alpha Fusion 数据库选型思路

数据库在 AI 时代的角色:承载多模态数据与向量化

在明确了人与 AI 的角色后,第三个关键问题便是“数据库能做什么”。雷宇先生强调,Alpha Fusion 与 TiDB 的深度绑定体现在数据库需要承载用户生成的内容(提示词)、用户反馈(问答)以及 AI 交付的非结构化文档(图片等模态)的存储。

传统上,用户的交易行为是结构化数据,如登录、购买、点击等。而提示词和 AI 问答则属于半结构化数据,图片则是典型的非结构化数据。在 AI 时代,数据库不仅要存储这些多样化的数据,更重要的是,它还需要将这些数据反哺给 AI 模型。

传统的数据库在处理自然语言时存在局限性,它们通常将自然语言视为独立的条目,难以进行聚合分析。然而,AI 时代对自然语言的分析需求日益增长,尤其是在构建“懂客户的 AI 平台”时,需要将客户的所有问答进行打包分析,这是传统数据库难以做到的。此外,传统的图片保存方式仅存储 URL 地址,无法保存图片内容,即使将图片转换为二进制数据存储,AI 也无法直接读取。

因此,将用户的生成内容、问答和图片全部转化为向量并存储在数据库中,并通过虚线反哺给 AI,成为了解决这些问题的关键。向量化使得数据库能够理解和处理多模态数据,从而回答了“数据库能做什么”这一核心问题。

TiDB 与 PostgreSQL 的选型对比:高效、云原生与向量化

在明确了数据库在 AI 时代的角色后,Alpha Fusion 团队在众多数据库中进行了选型,最终将目光锁定在 TiDB 和 PostgreSQL 之间。尽管市场上存在许多开源向量数据库,但 Alpha Fusion 希望一套数据库能够支持所有场景,避免传统数据库与向量数据库各自独立带来的复杂性。

image.png

数据库选型思路:为什么 TiDB > PostgreSQL

在对比 TiDB 和 PostgreSQL 时,团队主要从高效性、云原生特性和语料(向量化)三个方面进行了深入考量。

  1. 高效性:开发与运维的效率提升

在高效性方面,TiDB 在金融、互联网等行业已有诸多成功案例,其高性能毋庸置疑。然而,雷宇先生还强调了 TiDB 对开发人员高效性的意义。他指出,许多中国程序员对 MySQL 有着特殊的偏好,而 TiDB 作为 MySQL 兼容的分布式数据库,极大地降低了开发人员的学习曲线。一个具备 MySQL 基础的工程师,通常在两到三个月内即可掌握 TiDB 的开发和运维,这对于初创公司而言,意味着显著的学习成本降低和开发效率提升。

  1. 云原生:快速部署与弹性扩展

PostgreSQL 作为一款历史悠久的数据库,其插件和生态圈丰富,但其底层架构仍基于传统的数据库模式,并非原生云。而 TiDB 从诞生之日起便基于云原生架构设计,这意味着它能够充分利用云计算的优势,实现快速部署、弹性扩展和存算分离。对于 Alpha Fusion 公司而言,基于云平台进行业务部署是必然选择,TiDB 的云原生特性使得系统部署和迁移可以在一小时内完成,大大提升了运维效率和自动化水平。此外,根据 Alpha Fusion 的测试体验来看,PostgreSQL 在使用过程中可能出现数据倾斜问题,而 TiDB 的分布式架构能够更好地解决数据分布不均的挑战。

  1. 向量化:实现 “一切皆语料” 的高效处理

TiDB 的向量化能力精准契合 “一切皆语料” 的需求,可对各类数据(包括文本、图像等)进行向量化处理,通过高维向量捕捉数据的语义与上下文,突破传统关键词匹配的局限。其专用向量数据类型支持高达 16383 个维度,搭配 HNSW 等 ANN 算法构建的向量索引,能将查询性能提升 10 倍以上,且保持 90% 以上的准确率,辅以索引预热机制保障稳定运行。同时,TiDB 支持向量检索结果与 SQL 表连接,实现数据与向量嵌入的统一存储及灵活组合查询,适配 RAG、语义搜索等 AI 场景,结合对 MySQL 语法的兼容,简化了架构与开发流程,让各类数据都能作为语料高效参与 AI 应用。

Alpha Fusion 应用 TiDB 的收益与体验

image.png

Alpha Fusion 平台在引入 TiDB 后,其应用成效与用户体验均得到了显著提升。TiDB 的整合使 Alpha Fusion 成功实现了一套数据库对 OLTP(在线事务处理)、HTAP(混合事务/分析处理)以及 AI 全场景应用的支持 。简化了系统架构的同时,避免了部署和维护多套数据库系统的复杂性,使人力成本得以节约 50%,整体开发周期缩短一半,团队整体工作效率大幅提升。

在系统部署与运维层面 TiDB 带来便捷体验。在实际部署测试中,Alpha Fusion 团队发现 PostgreSQL 的 PG Vector 在 Docker 环境中部署时报错,且需要修改源代码配置才能解决,这带来了较高的变动风险。而 TiDB 的部署则非常顺畅,整个环境在约 40 分钟内即可搭建完成。除去大模型组件的下载时间,整个系统可在一小时内迅速搭建完成,且支持灵活扩展,显著降低运维费用,实现了高效的自动化运维。

此外,TiDB 有效降低了数据传输与保存的成本。数据管理变得更为集中高效,减少了跨系统数据迁移所带来的冗余与复杂性。通过对客户数据进行向量化处理,Alpha Fusion 能够快速构建客户画像及知识库,为用户提供更精准、个性化的服务。

向量数据库的未来与 AI 时代的应用趋势

向量数据库被认为是专为 AI 量身定制的,其本质在于将对象在多维空间中表示为点,并通过计算点之间的距离来发现关联。向量数据库充当了连接非结构化数据与 AI 应用的桥梁,实现了多模态数据的表达和智能化管理。雷宇表示:“在 AIGC 时代,非结构化数据的增速预计将是结构化数据的三倍以上,这进一步凸显了向量数据库的重要性。”

Alpha Fusion 将用户输入的提示词、生成的图片以及人机交互中的问答全部转化为向量,并按客户维度进行比较和存储在 TiDB 中。这种“一切皆语料”的理念,使得平台能够深入分析客户的交付风格和常用提示词。

展望未来, AI 时代数据库的应用或将呈现以下趋势:

  • 向量数据库的崛起: 向量是实现 AI 底层逻辑的关键,数据库开发人员需要转向向量开发,同时向量运算的加速仍是重要的研究方向。
  • AI 取代 BI 的可能: 随着 AI 技术的发展,未来或许可以直接将多年的财务数据导入 AI 进行分析和预测,而无需传统的建模和 BI 分析。
  • 图数据库的重要性: 随着 AI 应用的普及,知识图谱在企业知识库构建中扮演着越来越重要的角色。虽然 TiDB 目前尚未原生支持图数据库,但其未来集成图数据库功能将是重要的发展方向。

结语

基于对 AI 时代数据特性的深刻理解和对数据库技术发展趋势的精准判断,Alpha Fusion 选择 TiDB 作为其 AIGC 平台底层数据库。TiDB 在高效性、云原生架构以及对向量化数据的间接支持方面展现出的优势,使其能够有效应对 AIGC 场景下多模态数据存储与管理的挑战,为 Alpha Fusion 构建“最懂客户的 AI 平台”提供了坚实的基础。

0
0
0
0

版权声明:本文为 TiDB 社区用户原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接和本声明。

评论
暂无评论