系统架构
Tensor OS 的三层边界、14 个基线组件和 5 阶段引导安装流程。
系统架构
Tensor OS 的架构围绕三个清晰的边界展开,确保业务数据、运行态资源和安装配置各司其职。
三层边界
1. 业务数据库实体
需要落库维护的产品对象,存储在 CloudNativePG 管理的 PostgreSQL 中:
Dataset/DatasetVersion-- 数据集及其版本快照Model/ModelVersion-- 模型资产及可部署的模型产物TrainingTask-- 训练执行记录(支持 SFT 微调和 GRPO 强化学习)SandboxTemplate/SandboxSession-- 沙箱模板与运行实例License/OemBrandingConfig-- 授权与品牌化配置
2. Kubernetes / TensorFusion 运行态资源
直接从集群资源回显的对象,不进入业务数据库:
TensorFusionCluster-- 集群 AI 资源基座GPUPool-- GPU 弹性资源池GPUNode/GPU-- GPU 节点与设备StorageClass-- 集群存储类Endpoint/EndpointRelease-- 推理服务实例AIRoute-- 路由与流量策略
3. Bootstrap 安装配置
由 Go CLI 管理的安装和升级配置,独立于业务 schema:
- Bootstrap PostgreSQL、K3s、Traefik 等基础设施参数
- RustFS、JuiceFS、BeeGFS 等存储组件参数
- Gitea、GreptimeDB、Temporal 等应用组件参数
基线技术栈(14 个组件)
| 序号 | 组件 | 职责 |
|---|---|---|
| 1 | K3s | 轻量级 Kubernetes |
| 2 | Traefik | Ingress 网关 |
| 3 | Bootstrap PostgreSQL | K3s 数据存储(不用 SQLite) |
| 4 | TensorFusion Operator | GPU 虚拟化运行时 |
| 5 | CloudNativePG + pgvector | 应用数据库 |
| 6 | Redis | 缓存与状态协调 |
| 7 | RustFS | 对象存储(模型包、数据集、备份) |
| 8 | JuiceFS | 共享文件系统(工作空间、K3s PV/NFS) |
| 9 | BeeGFS | 并行文件系统(训练高并发读取) |
| 10 | Gitea + LFS | Git 资产管理 |
| 11 | Temporal | 工作流引擎 |
| 12 | GreptimeDB | 观测时序数据库 |
| 13 | Dragonfly | P2P 镜像分发 |
| 14 | Nydus | 镜像懒加载 |
Bootstrap 五阶段
Tensor OS 通过 Bootstrap CLI 按固定阶段完成安装:
Stage 0 -- 准备数据库
准备 Bootstrap PostgreSQL 作为 K3s 数据存储。
Stage 1 -- 启动编排层
启动 K3s 和 Traefik Ingress。
Stage 2 -- 安装核心组件
安装 TensorFusion Operator、CloudNativePG、Redis。
Stage 3 -- 安装全栈组件
安装 RustFS、JuiceFS、BeeGFS、Gitea、GreptimeDB、Temporal、Dragonfly、Nydus 以及 Tensor OS 服务本身。
Stage 4 -- 验收与上线
执行 License 初始化、OEM 配置、健康检查、Smoke Test 和升级前检查。
存储分工
| 存储组件 | 类型 | 用途 |
|---|---|---|
| RustFS | 对象存储 | 模型包、数据集包、导入导出包、备份 |
| JuiceFS | 共享文件系统 | 工作空间、K3s PV/NFS 语义 |
| BeeGFS | 并行文件系统 | 训练数据高并发读取 |