0
0
0
0
专栏/.../

TiDB 企业版组件-多集群企业管理器:TEM v3.0.0 更新啦!

 TiDBer_ajjAF4Xj  发表于  2025-04-25
原创

TiDB Enterprise Manager (TEM) v3.0.0 正式发布!相比 v2.1.3 版本,此次升级为 TiDB Self-Managed 带来了更便捷高效的管理体验:

  • 统一管理入口:无论网络是否域隔离,现在您都可以通过统一入口管理所有集群。控制台采用与 TiDB Cloud 一致的 UI 主题风格和 OpenAPI 标准,不仅实现了 "One TiDB" 的统一体验,更通过技术栈的统一大幅提升了研发效率。
  • 秒级构建超大规模集群:全新设计的极简交互流程,助您轻松实现跨数十台主机、数百节点集群的秒级创建!
  • 端到端可观测之旅:两大场景化监控大盘,精选约 60 个核心指标,层层下钻直达 SQL 诊断,高效定位问题根源。更支持 SQL 限流和执行计划绑定,一站式完成运维操作。
  • 精细化集群管控:提供参数模板、主机/集群标签、前后置检查脚本、凭证集中化管理等多项功能加持,让集群管理更轻松、更安全。
  • 国际化支持:支持一键切换中英文显示语言,操作更便捷。

TEM v3.0.0 的架构介绍

在企业版本中,TiDB提供了一款配套的图形化工具TiDB Enterprise Manager(简称 TEM)。TEM是一款以 TiDB 为核心的企业级数据库管理平台,兼容 TiDB 所有 LTS 版本。TEM 提供了对 TiDB 的集群部署、性能诊断、告警监控、备份恢复等全生命周期管理,帮助用户更加高效的管理 TiDB 集群,降低企业 IT 管理成本,提升管理效率。

TEM v3.0.0 主要包含任务子系统和 TEM 核心服务,并通过 TiUP、Agent (TCM)、SSH 对部署在物理机或虚拟机上的 TiDB 集群进行管理。任务子系统主要负责管理 TEM 系统需要执行的各类任务,包括周期性任务、一次性任务等。TEM核心服务包含了集群管理、备份恢复管理、告警管理、主机管理等功能模块。用户可以通过图形化用户界面来访问 TEM,完成对 TiDB 集群和其各个组件的管理。以下是 TEM v3.0.0 的功能架构图:

image.png

TEM v3.0.0 功能展示

以下是对 TEM 的主要功能进行的展示和介绍:

登录 TEM

由于 TEM 是属于平凯数据库(TiDB 企业版)的组件之一,如果你有商业诉求,请提交试用申请( 商业支持咨询 )以获取 TEM 企业版试用安装包,随后即可在企业内部 IT 环境中依照标准流程开展软件部署工作。待部署流程依照既定规范全部执行完毕后,在浏览器地址栏中准确无误地输入 TEM 所对应的 {host}:{port},即可无缝跳转至专属的登录页面,进而开启高效管理的全新体验 。 TEM 登录页面如图所示。

用户输入默认账号密码后即可登录到 TEM 中,即可看到当前 TEM 的首页:

这是 TEM 系统的概览页面,呈现了集群、主机和备份的关键信息及前 5 SQL 性能数据:

  • 集群、主机、备份统计:此处可以清楚的看到各个集群、主机和任务的数量和具体状态。
  • 前 5 SQL 性能:展示了 Transaction OPS、QPS、Duration、Transaction Duration 四个维度数据,图表呈现了不同时段的性能指标变化及平均数值,便于直观了解集群 SQL 性能表现。

集群管理

集群列表页

点击左侧边栏的 集群 标签,可以打开看到当前的集群列表页,如下所示:

TEM 系统的集群列表页面呈现了集群相关的格式信息:

  • 操作按钮:页面右上方设有 “创建集群” 和 “纳管集群” 按钮,可进行集群创建或纳管操作。
  • 搜索筛选:具备搜索框,支持通过名称或 ID 查找集群,还能清空筛选条件。
  • 集群信息展示:以表格形式呈现,包括名称、节点(细分 PD、TiDB、TiKV 等数量 )、版本、告警、状态等信息。同时支持分页浏览,底部显示集群总数及当前页码、每页展示数量 。

集群详情页

点击 集群名称,可以进入到集群详情页,如下所示:

这是 TEM 系统中某集群的详情页面,呈现了集群的各项格式信息:

  • 集群概况:页面顶部展示集群状态、版本、CPU 架构、节点数、网络域、中控机、创建者、创建时间等基础信息。
  • 告警情况:以分类统计形式呈现告警中(紧急、严重、警告 )及其他汇总(已解决、已屏蔽 )的数量,可按 24 小时、7 天、30 天查看。
  • 节点详情:列出各组件,包括 Web UI 地址(若有 )、版本、节点数等信息,设有 “查看拓扑” 按钮用于深入了解节点布局。
  • 资源水位:展示特定组件(如 TiKV )的磁盘资源使用情况,包括使用率、已用、可用及每日增长数据。
  • 核心指标:通过图表展示 Duration、QPS、Transaction OPS 等核心性能指标,可按 1 小时、24 小时、7 天切换查看指标变化趋势和平均数值。

集群拓扑

点击导航边栏的 拓扑 标签,可以看到集群的拓扑信息页,如下所示:

这是 TEM 系统的拓扑页面,呈现了集群各组件节点的分布与状态等格式信息:

  • 搜索筛选:设有搜索框,可按节点 IP 地址搜索节点;还有节点状态筛选框,能筛选特定状态节点,且支持一键清空筛选条件。
  • 组件节点展示:按组件分类列出,如 Alertmanager、Prometheus 等,显示各组件节点数量及运行状态。每个组件下展示节点地址、主机、位置、运行时长、状态等信息。
  • 操作功能:部分节点右侧有操作菜单,可进行查看详情、停止、重启、删除等操作,便于对节点进行管理 。页面右上角设有 “扩容” 按钮,可用于扩展集群节点资源。

集群监控和诊断

该部分能力可以参见首节视频。

集群监控能力是日常 TiDB 运维中必不可少的一部分功能,也是 TEM v3.0.0 中进行过重点优化的地方。集群监控页面如下图所示:

在页面顶部,从左至右依次是 “基础”“高级” 选项卡,用于切换不同监控视图模式;“SQL 诊断” 按钮,可跳转至对 SQL 性能诊断页面进行针对性的 SQL 问题定位;“所有图表已选” 下拉菜单,可选择监控图表范围;时间选择框 “30m Past 30 minutes”,用于设定监控数据的时间范围;“Refresh” 按钮用于手动刷新页面数据,其旁的 “1 min” 下拉菜单可设置自动刷新间隔时间 。通过这些按钮和选项,用户能灵活定制监控展示内容与更新频率,高效获取所需信息。

当前监控页面监控的指标除了对 TiDB 常见指标有相关监控外, 同时还基于 TiDB 常见问题做了高级看板,用于帮助用户对常见问题能够做到快速的根因定位或问题识别。

于此同时,当前 TEM 中所有的图表支撑展示下钻, 用户点击任意图表右上角的 下钻 标签,可以看到当前图表的数据展开页面,如下图所示:

基于以上能力, 用户可以便捷的进行看板查看和问题定位。当用户发现该问题是由 SQL 导致的问题时,用户可以点击 SQL 诊断 链接,此时用户将跳转到 SQL 诊断页面,如下图所示:

在此页面中,用户可以看到当前 TiDB 中的 慢查询 和 Top SQL 记录。当前所有的记录,支持基于多种阈值条件进行过滤筛选,如下图所示:

当用户发下相关问题 SQL 时,用户可以点击进入该 SQL 的详情页,当前 SQL 详情页如下图所示:

当前 SQL 诊断具备以下能力:

  • SQL 模板展示

    • 清晰呈现 SQL 模板具体内容,包括完整的 SELECT、FROM 等语句结构,方便用户直观查看 SQL 的语法构成和逻辑。
    • 提供 SQL 模板 ID,用于唯一标识该 SQL 模板;同时展示时间范围,明确数据统计的时间区间,以及执行数据库名称,让用户了解 SQL 执行的数据库环境。
  • SQL 历史分析

    • 以图表形式展示 SQL 在特定时间内的累计耗时变化趋势,用户可直观了解 SQL 执行耗时的动态情况。
    • 可按不同时间范围(如 1h )筛选查看,还能选择以累计耗时等维度分析,满足多样化分析需求。
  • 执行计划管理

    • 执行计划列表:展示执行计划 ID、累计耗时、平均耗时、执行次数、平均内存等关键指标,便于对比不同执行计划的性能表现。支持对执行计划进行 “修改绑定” 等操作,帮助优化 SQL 执行。
    • 执行详情:给出具体执行计划的详细信息,如 SQL 查询样例,展示实际执行的 SQL 语句片段;提供执行计划的文本和表格展示方式,呈现 id、estRows、estCost 等执行参数,方便深入分析执行过程和性能瓶颈。
  • SQL 限流设置

    • 提供 “添加或更新” 功能入口,可对 SQL 进行限流设置,控制 SQL 执行频率或资源占用,保障数据库整体性能稳定。

集群告警

集群告警页主要用于管理 TiDB 集群的告警信息, 下面包含 告警事件、告警规则 和 告警通道三个模块。

其中:

  • 告警事件:是集群中实际发生的异常情况反馈。在此模块可查看活跃告警与历史告警,通过搜索框按名称查找特定告警,利用 “对象类型” 和 “严重程度” 筛选框精准定位。告警信息以表格呈现,涵盖事件名称、节点、对象类型、严重程度、持续时间、发生时间等。点击具体事件可进入详情页,查看概览、详情、告警规则表达式等信息,还能进行静默事件操作,便于及时了解和处理集群异常 。
  • 告警规则:用于定义触发告警的条件和逻辑。用户可在此模块创建、编辑或删除告警规则,设置规则名称、关联的监控指标表达式等内容。合理配置告警规则,能确保在集群出现关键性能指标异常、资源使用超限等情况时,及时发出告警通知,帮助运维人员提前预防和快速定位问题 。
  • 告警通道:主要负责设置告警信息的通知方式和接收对象。可配置多种通知渠道,如邮件、webhook 等,指定相关人员或群组接收告警消息。通过灵活配置告警通道,保证告警信息能准确、及时地传达给相关负责人,以便迅速响应和处理集群告警事件 。

从 告警事件列表 中,点击任何一条告警消息,可以进入到告警详情页,其中对告警信息做了如下展示:

  • 概览信息:呈现告警的简要描述,如触发告警的条件等内容。
  • 详情信息:展示集群、状态、持续时间、严重程度等详细信息,以及对象类型、发生时间等基本信息。
  • 表达式信息:列出告警规则名称及具体表达式,还设有 “测试表达式” 功能,可按不同时间范围查看相关数据趋势。
  • 关联图表:若有相关监控图表,可在此查看,若没有则提示并提供在监控中查看更多的入口。页面右上角设有 “静默事件” 按钮,可对告警事件进行静默处理。

其他功能

除了上述功能外, TEM v3.0.0 还支持如下功能:

  • 备份:TEM v3.0.0 的备份功能支持对 TiDB 集群执行手动和定时备份。用户可以手动进行数据库的数据备份,也能灵活设定备份周期,如每日、每周定时备份,还可指定备份数据的存储位置,包括本地存储设备或云端存储服务。在需要时,可依据备份记录轻松恢复数据,保障业务连续性与数据安全性。此外,还提供备份任务监控功能,实时展示备份进度、状态等信息,方便用户及时掌握备份情况。
  • 会话:在会话管理方面,TEM v3.0.0 可清晰展示 TiDB 集群中所有活跃会话的详细信息,包括会话发起的连接时间、当前执行的 SQL 语句及执行状态等。通过这些信息,用户能快速定位异常会话,如长时间占用资源或执行高负载操作的会话,并可直接在界面上执行终止会话操作,保障集群资源合理分配与高效运行。
  • 参数:TEM v3.0.0 的参数管理功能允许用户全面查看和调整 TiDB 集群的各项参数。涵盖数据库运行参数、存储参数、网络参数等多个维度。用户可根据业务场景与性能需求,对参数进行精准配置,例如调整内存分配参数提升查询性能,修改日志记录参数满足审计要求。对于关键参数的修改,系统提供参数校验与版本控制机制,在修改前进行合理性检查,避免因错误配置导致集群故障。

主机管理

回到当前 TEM 首页, 用户通过点击左侧的 主机 标签,可以进入主机管理页面。

主机列表页

用户首先会看到的是主机列表页:

TEM 系统的主机列表页,呈现了主机的相关管理信息:

  • 操作按钮:页面右上方设有 “添加主机”“导入主机”“管理位置” 按钮,可进行主机添加、批量导入及位置管理操作。
  • 搜索筛选:具备搜索框,支持通过名称或 IP 查找主机,还能利用标签进行筛选,并可一键清空筛选条件。
  • 主机信息展示:以表格形式呈现主机信息,包括 IP 地址、名称、规格(如 CPU 核心数、内存大小及 NUMA 节点数 )、位置、关联集群、状态等。列表支持分页浏览,底部显示主机总数及当前页码、每页展示数量

主机详情页

用户点击相关的主机名称,可以进到主机的详情页,如下图所示:

TEM 系统中的主机详情页,呈现了特定主机的全面信息:

  • 基础信息:展示主机状态(如在线 )、SSH 端口、凭证类型、类型(如虚拟机 )、位置、操作系统、创建时间、更新时间等,呈现主机的基本属性和使用情况。
  • CPU 和内存:列出架构、型号、核心数、NUMA 节点数、内存容量等,帮助了解主机的计算资源配置。
  • 存储:显示磁盘类型、存储容量,呈现主机的存储资源情况。
  • 磁盘使用情况:展示磁盘路径、类型、已用 / 可用 / 总计容量、使用率、挂载目录,便于掌握磁盘空间使用状况。
  • TiDB 组件进程:列出用户 ID、进程 ID、父进程 ID、启动时间、运行时间、命令等信息,可用于监控和管理主机上运行的 TiDB 相关进程 。页面右上角设有 “修改” 按钮,可对主机相关信息进行编辑操作。

同时,用户也可以点击 主机监控 的标签,看到相关主机的监控指标。

添加主机(中控机)

用户可以通过主机列表页左上角的主机添加按钮,完成对主机的添加操作, 当前整个主机的添加操作如下所示分为三个步骤:

  1. 填写新建主机(或中控机) 的基本信息
  2. 系统自动校验确认该主机是否可用
  3. 弹出可用主机的预览

告警配置

用户点击左侧边栏的 告警 标签,可以看到 TEM 的告警管理页面。其整体格式与集群中的告警模块一致,包含 告警事件、告警规则 和 告警模版三个模块,但此处的告警模块为所有集群的告警信息集合

告警列表页和详情页

该部分内容与集群告警中的列表页和详情页一致,这里就不再做更多赘述。

告警规则

告警规则页展示信息如下图所示:

该页面用于管理 TiDB 集群的告警规则:

  • 操作按钮:页面右上角设有 “创建规则” 和 “从集群导入规则” 按钮,可手动创建新的告警规则,或从集群导入已有的规则,方便快捷地配置告警规则。
  • 搜索筛选:具备搜索框,支持按名称或表达式查找告警规则,还设有 “对象类型” 和 “严重程度” 筛选框,能精准筛选特定规则,并且可一键清空筛选条件,便于用户快速定位所需规则。
  • 规则列表展示:以表格形式呈现告警规则信息,包括规则名称、表达式、对象类型、严重程度、持续时间、绑定模板数等。列表支持分页浏览,底部显示规则总数及当前页码、每页展示数量,方便用户查看和管理大量规则。

告警模版

告警模版页展示信息如下图所示, 整个告警模板为告警规则的集合,方便用户对集群进行批量的告警规则配置。

备份

页面总览

用户点击导航左侧边栏的 备份 标签可以打开 TEM 系统中的备份管理页面,用于对 TiDB 集群备份任务进行集中管控:

  • 操作按钮:页面右上角设有 “手动备份”“手动恢复”“管理备份策略” 按钮,可按需触发手动备份与恢复操作,或对备份策略进行配置与调整,满足不同的备份恢复需求。
  • 信息展示区:呈现 “备份存储使用量集群 TOP3”(当前显示不适用 )和 “未分配备份策略集群 TOP3” 信息,帮助用户快速了解集群备份存储使用及策略分配情况。
  • 筛选功能:提供 “任务类型”“任务状态”“集群名称” 筛选框,可灵活筛选备份任务,还能一键 “清除筛选条件”,方便精准定位特定备份任务。
  • 任务列表:以表格形式展示备份任务相关信息,包括任务 ID、任务类型、任务状态、任务名称、集群名称、开始时间、结束时间及操作列。当前显示暂无数据,若有任务执行,可在此查看任务详情并进行相关操作。

手动备份和恢复

以下是用户点击了备份界面中的 手动备份 和 手动恢复 按钮后,TEMv3.0.0 弹出的相关操作页:

  • 手动备份功能用于按需对 TiDB 集群进行数据备份操作。在操作界面中,用户首先需从下拉菜单选择要备份的集群名称;接着输入自定义的备份名称以便识别。目的地类型可选择如 S3 等存储类型,选定后需输入备份目的地地址,以及对应的 Access Key ID 和 Secret Access Key,用于授权访问存储位置。此外,还设有 “高级设置” 选项,可满足用户更精细的备份配置需求。完成各项信息填写后,点击 “创建” 即可启动备份任务,点击 “取消” 则放弃操作。
  • 手动恢复功能用于将备份数据恢复到指定集群。操作时,用户先选择源集群,即备份数据所在的集群;再选择目标集群,也就是要恢复数据的集群,并且可点击 “测试” 进行相关测试。然后从下拉菜单选择备份名称(需先选择源集群才能显示可选项 )。确认信息无误后,点击 “手动恢复” 执行恢复操作,若要放弃则点击 “取消” 。

定时备份

用户也可以通过创建备份策略的方式实现定时备份, 具体配置内容如下:

  • 备份目的地信息:需输入备份目的地地址,当前备份目的地址使用 s3 存储,需要用户填写 Access Key ID 和 Secret Access Key 用于权限验证。可切换开关开启或关闭日志备份功能。
  • 适用集群选择:通过下拉菜单选择适用该备份策略的 TiDB 集群。
  • 高级设置:可展开进行更详细的备份参数配置。
  • 备份周期与保留设置:可选择按周或月执行备份,若选按周,还能指定具体周次。同时可设置备份保留时间,当前默认设置为 10 天。
  • 操作按钮:完成配置后,点击 “创建” 确认并保存备份策略,点击 “取消” 则放弃此次创建操作。

任务中心

任务中心是 TEM 系统中用于集中管理各类任务的模块。在这里,用户可以查看系统中正在执行、已完成或失败的任务列表。任务类型涵盖集群创建、备份恢复、主机添加等多种与 TiDB 集群管理相关的操作。通过任务中心,能够清晰了解每个任务的任务 ID、任务名称、所属集群、开始时间、结束时间以及任务状态等信息。这有助于用户实时监控任务进展,及时发现和处理异常任务,比如对长时间未完成或失败的任务进行排查和重试,保障集群管理操作的顺利进行和高效执行。

审计日志

审计日志模块记录了 TEM 系统中各类操作的详细日志信息。它会记录操作的时间、操作类型(如集群配置修改、备份任务执行、用户登录登出等 )、操作执行者、操作对象(如具体的集群、主机 )以及操作前后的状态变化等内容。审计日志为系统操作提供了追溯依据,一方面有助于安全审计,可追踪是否存在非法或异常操作;另一方面在系统出现问题时,通过查看审计日志能快速定位问题发生的时间点和相关操作,辅助技术人员进行故障排查和问题解决,确保 TiDB 集群管理操作的合规性和可追溯性。

相关设置

TEM 系统的设置模块涵盖多项关键功能,用于对系统基础配置和管理进行把控:

  • 网络域:可查看已创建网络域的名称、集群管理中控机、创建及更新时间等信息,还能点击 “添加域” 创建新网络域,满足不同网络环境下的集群部署与管理需求 。
  • 参数模板:用于创建、管理参数模板,方便对 TiDB 集群的参数进行统一配置和管理,提升参数设置的效率与规范性 。
  • 标签:支持创建、编辑和管理标签,可对集群、主机等资源进行分类标记,便于资源的检索、筛选与管理 。
  • 凭证:用于管理各类凭证信息,如主机连接凭证等,保障系统与外部资源交互时的身份验证和访问安全 。
  • 用户管理:可进行用户的创建、编辑、权限分配等操作,实现对系统访问用户的精细化管理,确保不同用户拥有合适的操作权限 。
  • API Keys:用于生成、管理 API 密钥,为外部应用或脚本调用 TEM 系统 API 提供安全认证,支持系统的集成与自动化操作 。

总结

TEM v3.0.0 是一款能全面覆盖 TiDB 生命周期管理的数据库软件。在集群部署与初始化阶段,它支持便捷创建集群,纳管已有集群,并通过主机管理功能添加、导入主机,配置主机详情,当前操作十分方便。

当用户管理的集群运行时,TEM v3.0.0 其监控体系强大。概览页呈现集群关键信息与性能指标;拓扑页面展示节点分布;告警模块涵盖事件、规则、通道管理,及时反馈异常。备份恢复功能灵活,手动与策略备份结合,保障数据安全可恢复。

与此同时,TEM v3.0.0 中的任务中心与审计日志,分别助力任务管理与操作追溯。设置模块则从网络域、参数模板到用户权限等多方面,为系统稳定运行和安全管理提供支持。TEM v3.0.0 贯穿 TiDB 从创建到运维的各个环节,全方位保障数据库的高效、安全运行。

0
0
0
0

版权声明:本文为 TiDB 社区用户原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接和本声明。

评论
暂无评论