训练任务

提交和管理 SFT 微调与 GRPO 强化学习训练任务。

提交、监控并管理模型微调与强化学习训练任务。

任务类型

Tensor OS 支持两种训练任务类型：

SFT 微调

Supervised Fine-Tuning（有监督微调），使用标注数据对预训练模型进行领域适配。适用于：

将通用大模型适配到特定业务领域
指令跟随能力增强
风格和格式控制

GRPO 强化学习

Group Relative Policy Optimization（分组相对策略优化），通过奖励信号进一步优化模型行为。适用于：

对齐人类偏好
提升推理和规划能力
安全性和合规性约束

创建训练任务

创建新任务时需要指定：

任务名称: 训练任务的标识
项目 ID: 所属项目
任务类型: SFT 微调或 GRPO 强化学习
基础模型版本: 用于微调的基础模型版本 ID（可选）
数据集版本: 训练使用的数据集版本 ID（可选）

任务状态

训练任务有以下状态流转：

状态	说明
草稿	任务已创建但未提交
排队中	任务已提交，等待资源分配
运行中	任务正在执行训练
已完成	训练成功完成
失败	训练执行失败
已取消	任务被手动取消

任务管理

训练任务列表支持：

按名称和类型搜索
创建新任务
编辑任务名称和状态
删除任务

任务详情页（指标可视化、日志查看、TensorBoard 内嵌展示）即将推出。训练过程中的指标将通过 GreptimeDB 存储，并支持 TensorBoard 反向代理展示。

模型与数据管理

管理数据集、模型资产和版本，支持多种框架和数据来源。

模型服务与应用服务

将模型部署为推理服务，管理应用服务的部署和运行状态。

目录

任务类型 SFT 微调 GRPO 强化学习创建训练任务任务状态任务管理