在线推理
大约 5 分钟
在线推理
用户训练完模型之后需要部署成线上服务才能用于解决实际业务。【在线推理】模块实现了模型的快速部署并提供完备的监控及日志。用户不仅能充分掌握服务的健康状况,还能通过日志等功能对问题进行详细深入的排查。
创建在线推理服务
使用前提
- 主账号-账户余额充足或者已购专属资源组
- 子账号-拥有分配的项目。
操作步骤
- 登录平台,点击左侧导航栏中【模型库】或者【在线推理】进入列表页面
- 点击列表页面左上方的【+在线部署】进入创建页面
- 在创建页面填写相关参数,具体参数如下
用户只需要简单输入任务名称、任务描述内容以及资源的选择即可创建一个在线推理任务。
参数名称 | 参数说明 |
---|---|
服务名称 | 填写服务的名称。服务名称可重复。 必填 。支持1~10位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。报错提示语:支持1~10位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。 |
服务描述 | 填写对服务的适当描述。 选填 。支持 1~100 位可见字符。报错提示语:支持1~100位可见字符。 |
存储 | 选择存储空间以及相应的路径。 选填 。(模型存放进存储空间中) |
资源组 | 选择创建开发机的资源组,GPU实例单选。必填 |
计算规格 | 根据选择的资源组,选择合适的实例规格,仅支持同一资源组下同一类型的单选。必填。 如果需要指定节点,可以在此规格资源下选择目标主机。必填。 |
环境变量 | 将被注入到容器实例中的环境变量。用户提供的模型当中的env; 选填 。可配置多个环境变量。 |
镜像 | 选择镜像仓库中的镜像。 必填 。 |
启动命令 | 镜像的启动命令。必填。 |
端口 | 支持自定义端口,必填。监听端口限制范围:1-65535*(除去特殊端口:特殊端口*需要文博确认:22、4200、8080、8866、8880、8888、) |
其中使用【模型库】的模型创建的在线推理服务,平台为每个模型中增加了必须包含的信息,具体包含:模型、镜像、端口以及相应的启动命令
环境变量说明:
在提交任务时,环境变量将被注入到训练容器中
适用于使用 deepspeed 的分布式训练环境
变量名 值(示例) 说明 用法 NCCL_DEBUG INFO INFO显示关于初始化、配置等的基本信息 设置不同的调试级别,INFO ,WARN, ERROR, DETAIL, TRACE NCCL_NET IB IB代表 InfiniBand 使NCCL库使用 InfiniBand 网络来进行节点间的通信。 NCCL_IB_DISABLE 0 是否启用IB 启用 InfiniBand 并确保 NCCL 能够利用它进行通信。 MASTER_ADDR deepspeed-training-service 通信service 自定义k8s该任务使用的通信service,用于节点间通信。 MASTER_PORT 6000 主节点上的端口号 设置分布式训练中的主节点端口,用于节点间通信。 FORCE_TORCHRUN 1 是否使用 torchrun 强制使用 torchrun 作为启动分布式作业的命令。 WORLD_SIZE 4 2机2卡 设置参与分布式训练过程的进程总数。 NNODES 2 2个节点 结合 NNODES 和 WORLD_SIZE,可以计算出每个节点上启动的进程数 。
- 完成上述表单的配置后,单击【确认订单】提交在线推理任务。后续用户即可在【在线推理】的列表页 / 详情页中管理推理任务。
- 主要包含以下几个状态
参数名称 | 参数说明 |
---|---|
状态 | 创建失败:创建失败启动中:节点调度、镜像拉取、启动实例的阶段。运行中:该阶段下实例能够正常对外提供服务。已停止:用户触发停止服务的操作,正在删除实例的阶段。 |
在线推理任务详情
平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况。
基本信息
查看任务信息、任务运行信息、计费资源信息
实例属性
查看当前推理任务所使用的容器组信息,包括容器组名称/ID、状态、容器组内节点名称、容器组创建和更新时间、以及容器的实例信息。
参数名称 | 参数说明 |
---|---|
实例数量 | 总数量/运行中的数量 |
所属资源组 | 所属资源组名。 |
资源规格 | 显示GPU+显存+CPU+内存+系统盘 |
状态 | 启动中:节点调度、镜像拉取、启动实例的阶段。运行中:该阶段下实例能够正常对外提供服务。已停止:用户触发停止服务的操作,正在删除实例的阶段。(自动删除,不展示) |
创建时间 | 精确到秒,创建时间 |
操作 | 【服务日志】 跳转至 11.5.2 服务日志 |
CPU | CPU信息 |
内存 | 内存容量 |
重试次数 | 重试次数 |
监控
展示资源使用量:GPU使用量、CPU使用量、内存使用量以及显存使用量
服务日志
选择相应的容器组,展示其日志。
删除服务
若某个服务后续不再使用时用户可以选择删除该服务。
使用前提
- 【在线推理】中存在 >= 1 个服务。
- 待删除的服务需要提前停止,当状态为【已停止】时才能删除。
操作步骤
- 登录平台,点击左侧导航栏中【在线推理】进入列表页面
- 点击列表页面-操作区域单击【删除】。