编者按
西安霖云芯创是专注于国产化计算机集成制造(CIM)解决方案的高新技术企业,在发展过程中,其技术架构曾遭遇内外部多重挑战,制约了业务的进一步突破。本文基于西安霖云芯创信息系统架构师张超在 TiDB 社区活动(西安站)的分享整理而成,详细拆解 TiDB 在半导体生产管理系统中的完整应用实践,为行业同类场景提供切实可落地的技术参考。
作者:西安霖云芯创 张超
半导体制造行业的数据库困境
在半导体制造行业,计算机集成制造(CIM)系统是晶圆厂的“核心大脑”,它整合并管理着从投片到出货的全部生产流程,确保生产的稳定和高效。CIM 系统需要实时处理设备日志、工艺参数等海量生产数据,因此,一个高性能、高可用的数据库是支撑其稳定运行的关键。
对于CIM厂商来说,选择一款合适的数据库并不是一件易事:
以前,CIM系统普遍采用 Oracle RAC。为了实现数据读取,通常需要额外配置 Oracle ADG(Active Data Guard)并从中读取数据,这增加了架构的复杂性。
对于 MySQL 和 MongoDB,需要谨慎评估其适用性。虽然 MySQL 是许多中小型企业的常见选择,但其集群扩展性有限。当数据表规模增大时,查询性能下降的问题会愈发明显,并且难以从根本上解决。此外,MySQL 的日常运维对经验要求较高,需要提前规划数据增长后的扩展方案,难以高效支撑海量生产数据。而 MongoDB 尽管在处理 JSON 数据方面具有一定优势,但其复杂的运维和查询命令增加了操作难度,同时数据格式在与其他数据库转换时存在技术壁垒,难以满足系统兼容性需求。
为突破这一困境,西安霖云芯创团队也曾努力尝试在应用层自主开发数据传输工具,但在压力测试中频繁出现数据丢失问题,无法保障数据完整性,难以投入实际生产使用。
以无感切换、卓越性能与稳定可靠实现系统升级
面对技术与外部环境的双重挑战,TiDB 凭借多维度优势,成为西安霖云芯创的最优选择,为半导体生产系统升级提供了关键支撑。
从迁移适配性来看,TiDB 与 MySQL 兼容性极高。从 MySQL 切换至 TiDB 的过程中,开发团队无需大规模调整代码,运维流程也无需彻底重构,几乎实现了“无感切换”。迁移成本与技术风险大幅降低的同时,业务连续性也得到了保障。
TiDB 集成的运维工具也为团队提供了巨大帮助。在监控与优化能力上,TiDB 集成 Prometheus 监控组件,可实时采集并展示 QPS (每秒查询率)、数据延迟、CPU 及内存使用率等关键运行指标;自带的 Dashboard 功能则支持 SQL 优化、Top SQL 查询分析等操作,结合客户常用的监控系统,可快速生成可视化报表,助力运维与开发团队精准定位问题、优化系统性能,提升故障排查与性能调优效率。
TiDB 的强大集群架构给团队留下了深刻印象。在 POC 阶段,团队使用三台配置相同的物理机部署 3+3 模式(3 个 PD、TiDB、TiKV 在三台机器)的 TiDB 集群,并进行了故障转移测试。测试结果显示,即使在模拟节点故障和恢复的过程中,业务运行也未出现过一次数据库连接超时或数据丢失,这充分验证了其集群架构的稳定性和高可用性 。
此外,TiDB 的备份恢复功能操作简便,无需复杂配置即可完成数据备份与恢复,为数据安全提供保障;同时,集群扩容与缩容可灵活操作,能够根据业务数据量变化动态调整资源配置,适应生产系统的动态需求。
TiDB 在半导体产运核心系统的应用实践
引入 TiDB 后,西安霖云芯创逐步将其应用于多个核心业务系统,从数据架构到性能表现,均实现了显著升级,为半导体生产运营提供了坚实的数据支撑:
在核心系统应用方面,TiDB 已深度融入 Report、DSP(数据信号处理器)、FAE(现场应用工程师)等关键系统。其中,Report 系统依托 TiDB 的高效数据处理能力,实现生产报表快速生成与大屏可视化展示,为管理层与生产人员提供实时、准确的生产数据参考;DSP 与 FAE 系统作为支撑工厂全自动化(Auto 模式)的核心,借助 TiDB 实时数据存储与查询能力,精准获取半导体成品位置信息,并与其他系统协同联动,指挥机器人完成自动搬运作业,助力“黑灯工厂”建设,提升生产自动化水平与运营效率。
数据架构设计上,团队采用“双集群”模式,将数据存储划分为 Inline 数据集群与 Offline 数据集群。Inline集群专注处理实时生产数据,主要为 MES(制造执行系统)提供数据服务,保障生产过程中数据的实时性与可用性;Offline 集群则通过数据同步机制获取主库数据,专门用于报表生成、历史数据查询等非实时性操作,有效避免了读写请求冲突对生产系统造成的影响,实现“生产与分析分离”,提升整体系统运行效率。为实现主备库数据实时同步,团队利用 TiCDC(TiDB Change Data Capture)的 Changefeed 功能,将数据变更以事件(event)形式传输至 Pulsar 等中间件,再由 AP(应用程序)服务器监听并处理数据,确保主备库数据一致性,同步延迟通常控制在 20 毫秒以内,满足生产数据实时同步需求。
性能测试结果显示,TiDB 表现出优异的承载能力与稳定性。初始测试中,系统 QPS 可达 800,且能稳定运行 24 小时;随着优化调整,后续并发量提升至 1600 仍能保持高效运转。3 节点部署的 TiDB 集群可支撑 1TB 业务数据存储,且日均新增 30GB 数据的情况下,仍能保障数据处理效率;在 Fold 等对实时性要求极高的系统中,数据同步延迟可进一步控制在 10 毫秒左右,完全满足半导体生产对实时数据处理的严苛要求。
TiDB 使用收益
- 性能显著提升
TiDB 的引入有效解决了此前困扰团队的性能瓶颈。针对大量数据写入耗时过长的问题(曾达2304秒),团队参考 TiDB 官方文档,将单行插入优化为多行插入,从而将 UPDATE
和 INSERT
语句的执行时间大幅缩短至毫秒级。这彻底解决了高并发写入瓶颈,满足了半导体生产高峰期的数据处理需求。依托 TiDB 的水平扩展能力,系统能够轻松应对设备日志、工艺参数等海量生产数据的写入与查询,保障 MES 和 EAP 等子系统的高并发运行。此外,TiDB 的 HTAP(混合事务/分析处理)特性实现了事务与实时分析的混合负载,无需额外进行数据迁移,即可为 SPC(统计过程控制)提供高效数据支撑,助力实时质量分析,提升良品率决策效率。
- 运维体验优化
TiDB 集成的功能显著简化了运维流程。其内置的 Prometheus 监控与 Dashboard 功能,让运维人员无需依赖复杂工具即可完成运行指标监控、问题排查与性能优化。这大幅减少了报表生成与故障处理时间。
- 数据安全与可靠
此外,TiDB 的备份恢复功能操作便捷,降低了数据安全管理难度,使定期备份计划能够轻松落地。集群扩缩容无需中断业务,动态调整资源配置的过程更为高效。
TiDB 为半导体行业保驾护航
CIM 系统对数据库的高并发、实时性、扩展性和高可用性提出了严苛要求,经过验证,TiDB是非常理想的选择:
- 高性能与实时性:对于 MES、EAP 等需要实时处理海量数据、支撑高并发的核心系统,TiDB 是理想的解决方案。其水平扩展能力可以轻松应对设备日志、工艺参数等海量生产数据的实时写入与查询,满足子系统的高并发需求。
- 实时分析一体化:对于 SPC (统计过程控制)等需要同时支持事务处理与实时分析的场景,TiDB 的 HTAP 特性具有更高的适配性。该特性支持事务与分析的混合负载,无需数据迁移即可实现实时质量分析,从而提升良率决策效率。
- 高可用与可靠性:TiDB 采用多副本机制与自动故障恢复功能,确保了 7×24 小时稳定运行。这有助于避免因数据库故障而导致的生产中断,为企业提供了金融级的可靠性保障。
- 国产化适配:平凯数据库(TiDB 企业版)已于 2024 年 9 月首批通过分布式数据库安全可靠测评,契合半导体产业自主化发展的趋势,可帮助企业实现传统数据库替换,有效规避技术封锁风险。
未来展望
TiDB 的成功落地,为半导体生产运营注入了新动能,其优势涵盖了性能提升、运维优化以及技术适配等多个层面。目前,在 8 英寸半导体前端工厂的 CIM 系统中,TiDB 已被全面采纳为主数据库,并且 MES 开发测试环境的迁移工作也已完成,这为未来的大规模应用打下了坚实基础。
展望未来,西安霖云芯创计划重点推进 TiDB 在 12 英寸封装产线的应用,以逐步替代目前主流的 Oracle 数据库。考虑到半导体工厂对数据库稳定性有着极高的要求,西安霖云芯创正通过持续的实践和更多场景的验证,不断打磨和完善一体化解决方案。同时希望与 TiDB 社区携手努力,共同将该解决方案推广至整个半导体产业,最终实现以自主技术全面替代传统国外数据库的目标。