集群管理
导入和管理 Kubernetes 集群连接,查看系统组件健康状态。
集群管理
集群管理是 Tensor OS 基建管理的入口,提供 Kubernetes 集群的导入、连接管理和系统组件监控能力。
集群导入
Tensor OS 支持通过 kubeconfig 文件导入外部 Kubernetes 集群:
- 文件上传: 选择本地 kubeconfig 文件(最大 200KB)
- 粘贴 YAML: 直接在文本框中粘贴 kubeconfig 内容
- Context 选择: 当 kubeconfig 包含多个 context 时,可选择要导入的目标
导入时系统会自动解析 kubeconfig 中的集群名称、API Server 地址、CA 证书和认证 Token,并进行连接测试验证。
集群锁定
导入多个集群后,可以将某个集群设为「锁定」状态。锁定的集群将作为当前操作的默认目标集群,GPU 管理、存储管理等功能页面会自动使用锁定的集群进行数据查询。
集群列表
每个已导入的集群以卡片形式展示以下信息:
- 集群名称和显示名称
- API Server 地址
- 导入时间
- 节点状态(Ready/Total 统计)
- 锁定状态
支持删除不再需要的集群连接。
系统组件
系统组件页面展示当前集群中所有 Deployment 和 StatefulSet 的运行状态:
- 按命名空间分组 展示组件列表
- 每个组件显示名称、类型(Deployment/StatefulSet)、副本状态、镜像版本和创建时间
- 副本状态以颜色区分:绿色表示健康(全部就绪)、黄色表示部分就绪、红色表示不可用
通过系统组件页面,管理员可以快速了解 TensorFusion Operator、CloudNativePG、Redis、RustFS 等所有基线组件的运行状况。
主机管理
主机标签管理和批量运维(Ansible 脚本执行)功能即将推出。
主机管理页面展示集群中所有 Node 的详细信息:
- 节点名称、状态、角色
- 操作系统和内核版本
- CPU、内存等资源的请求量/限制量/可分配量
- 节点条件状态(MemoryPressure、DiskPressure 等)
- Pod 列表(按节点筛选)
支持为节点添加标签(Label)和污点(Taint),以及执行节点 Cordon/Uncordon 操作。