模型服务与应用服务
将模型部署为推理服务,管理应用服务的部署和运行状态。
模型服务与应用服务
平台服务模块分为模型服务和应用服务两部分,覆盖带 GPU 的推理服务和不带 GPU 的通用应用。
模型服务
模型服务管理已部署的模型推理端点,是 Tensor OS 最核心的交付物之一。
创建模型服务
创建时需要指定:
- 服务名称: 推理服务标识(如
qwen2.5-0.5b) - 模型引用: 模型版本 ID 或镜像地址
- 命名空间: K8s 部署命名空间
- GPU 配置: TFlops 请求量和 VRAM 请求量
GPU 配置通过 TensorFusion 的虚拟化能力,按需为推理服务分配精确的算力和显存资源。
运行状态监控
模型服务列表展示每个服务的关键信息:
| 字段 | 说明 |
|---|---|
| 服务名称 | 推理服务标识 |
| 模型引用 | 关联的模型版本或镜像 |
| 命名空间 | K8s 部署命名空间 |
| 状态 | 待部署/部署中/运行中/已停止/失败 |
| 运行状态 | K8s Deployment 副本就绪数(可展开查看 Pod 列表) |
| GPU 配置 | 请求的 TFlops 和 VRAM |
点击运行状态的副本数标签可展开查看关联的 Pod 详情,包括 Pod 名称、运行状态和重启次数。
应用服务
应用服务管理不包含 GPU 的通用应用部署,支持通过 kustomize/helm 模板创建。
创建应用服务
创建时需要指定:
- 应用名称: 如
label-studio - 部署模板引用: 模板名称或路径
- 命名空间: K8s 部署命名空间
- 配置仓库地址(可选): Gitea 中的应用 manifest 仓库 URL
应用服务同样提供 K8s 运行态的副本状态展示和 Pod 级别的详情查看。
应用详情页(关联资源可视化:Deployment/CronJob/StatefulSet、Pod 列表、Ingress/Service/ConfigMap/Secret、资源监控)即将推出。