TensorFusion Docs

模型服务与应用服务

将模型部署为推理服务,管理应用服务的部署和运行状态。

模型服务与应用服务

平台服务模块分为模型服务和应用服务两部分,覆盖带 GPU 的推理服务和不带 GPU 的通用应用。

模型服务

模型服务管理已部署的模型推理端点,是 Tensor OS 最核心的交付物之一。

创建模型服务

创建时需要指定:

  • 服务名称: 推理服务标识(如 qwen2.5-0.5b
  • 模型引用: 模型版本 ID 或镜像地址
  • 命名空间: K8s 部署命名空间
  • GPU 配置: TFlops 请求量和 VRAM 请求量

GPU 配置通过 TensorFusion 的虚拟化能力,按需为推理服务分配精确的算力和显存资源。

运行状态监控

模型服务列表展示每个服务的关键信息:

字段说明
服务名称推理服务标识
模型引用关联的模型版本或镜像
命名空间K8s 部署命名空间
状态待部署/部署中/运行中/已停止/失败
运行状态K8s Deployment 副本就绪数(可展开查看 Pod 列表)
GPU 配置请求的 TFlops 和 VRAM

点击运行状态的副本数标签可展开查看关联的 Pod 详情,包括 Pod 名称、运行状态和重启次数。

应用服务

应用服务管理不包含 GPU 的通用应用部署,支持通过 kustomize/helm 模板创建。

创建应用服务

创建时需要指定:

  • 应用名称: 如 label-studio
  • 部署模板引用: 模板名称或路径
  • 命名空间: K8s 部署命名空间
  • 配置仓库地址(可选): Gitea 中的应用 manifest 仓库 URL

应用服务同样提供 K8s 运行态的副本状态展示和 Pod 级别的详情查看。

应用详情页(关联资源可视化:Deployment/CronJob/StatefulSet、Pod 列表、Ingress/Service/ConfigMap/Secret、资源监控)即将推出。

目录