TensorFusion Docs

系统架构

Tensor OS 的三层边界、14 个基线组件和 5 阶段引导安装流程。

系统架构

Tensor OS 的架构围绕三个清晰的边界展开,确保业务数据、运行态资源和安装配置各司其职。

三层边界

1. 业务数据库实体

需要落库维护的产品对象,存储在 CloudNativePG 管理的 PostgreSQL 中:

  • Dataset / DatasetVersion -- 数据集及其版本快照
  • Model / ModelVersion -- 模型资产及可部署的模型产物
  • TrainingTask -- 训练执行记录(支持 SFT 微调和 GRPO 强化学习)
  • SandboxTemplate / SandboxSession -- 沙箱模板与运行实例
  • License / OemBrandingConfig -- 授权与品牌化配置

2. Kubernetes / TensorFusion 运行态资源

直接从集群资源回显的对象,不进入业务数据库

  • TensorFusionCluster -- 集群 AI 资源基座
  • GPUPool -- GPU 弹性资源池
  • GPUNode / GPU -- GPU 节点与设备
  • StorageClass -- 集群存储类
  • Endpoint / EndpointRelease -- 推理服务实例
  • AIRoute -- 路由与流量策略

3. Bootstrap 安装配置

由 Go CLI 管理的安装和升级配置,独立于业务 schema:

  • Bootstrap PostgreSQL、K3s、Traefik 等基础设施参数
  • RustFS、JuiceFS、BeeGFS 等存储组件参数
  • Gitea、GreptimeDB、Temporal 等应用组件参数

基线技术栈(14 个组件)

序号组件职责
1K3s轻量级 Kubernetes
2TraefikIngress 网关
3Bootstrap PostgreSQLK3s 数据存储(不用 SQLite)
4TensorFusion OperatorGPU 虚拟化运行时
5CloudNativePG + pgvector应用数据库
6Redis缓存与状态协调
7RustFS对象存储(模型包、数据集、备份)
8JuiceFS共享文件系统(工作空间、K3s PV/NFS)
9BeeGFS并行文件系统(训练高并发读取)
10Gitea + LFSGit 资产管理
11Temporal工作流引擎
12GreptimeDB观测时序数据库
13DragonflyP2P 镜像分发
14Nydus镜像懒加载

Bootstrap 五阶段

Tensor OS 通过 Bootstrap CLI 按固定阶段完成安装:

Stage 0 -- 准备数据库

准备 Bootstrap PostgreSQL 作为 K3s 数据存储。

Stage 1 -- 启动编排层

启动 K3s 和 Traefik Ingress。

Stage 2 -- 安装核心组件

安装 TensorFusion Operator、CloudNativePG、Redis。

Stage 3 -- 安装全栈组件

安装 RustFS、JuiceFS、BeeGFS、Gitea、GreptimeDB、Temporal、Dragonfly、Nydus 以及 Tensor OS 服务本身。

Stage 4 -- 验收与上线

执行 License 初始化、OEM 配置、健康检查、Smoke Test 和升级前检查。

存储分工

存储组件类型用途
RustFS对象存储模型包、数据集包、导入导出包、备份
JuiceFS共享文件系统工作空间、K3s PV/NFS 语义
BeeGFS并行文件系统训练数据高并发读取

目录