跳至主要內容

在线推理

大约 5 分钟

在线推理

用户训练完模型之后需要部署成线上服务才能用于解决实际业务。【在线推理】模块实现了模型的快速部署并提供完备的监控及日志。用户不仅能充分掌握服务的健康状况,还能通过日志等功能对问题进行详细深入的排查。

创建在线推理服务

使用前提

  • 主账号-账户余额充足或者已购专属资源组
  • 子账号-拥有分配的项目。

操作步骤

  1. 登录平台,点击左侧导航栏中【模型库】或者【在线推理】进入列表页面
  2. 点击列表页面左上方的【+在线部署】进入创建页面
  3. 在创建页面填写相关参数,具体参数如下

用户只需要简单输入任务名称、任务描述内容以及资源的选择即可创建一个在线推理任务。

参数名称参数说明
服务名称填写服务的名称。服务名称可重复。 必填 。支持1~10位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。报错提示语:支持1~10位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。
服务描述填写对服务的适当描述。 选填 。支持 1~100 位可见字符。报错提示语:支持1~100位可见字符。
存储选择存储空间以及相应的路径。 选填 。(模型存放进存储空间中)
资源组选择创建开发机的资源组,GPU实例单选。必填
计算规格根据选择的资源组,选择合适的实例规格,仅支持同一资源组下同一类型的单选。必填。 如果需要指定节点,可以在此规格资源下选择目标主机。必填
环境变量将被注入到容器实例中的环境变量。用户提供的模型当中的env; 选填 。可配置多个环境变量。
镜像选择镜像仓库中的镜像。 必填
启动命令镜像的启动命令。必填
端口支持自定义端口,必填。监听端口限制范围:1-65535*(除去特殊端口:特殊端口*需要文博确认:22、4200、8080、8866、8880、8888、)

其中使用【模型库】的模型创建的在线推理服务,平台为每个模型中增加了必须包含的信息,具体包含:模型、镜像、端口以及相应的启动命令

环境变量说明:

在提交任务时,环境变量将被注入到训练容器中

  • 适用于使用 deepspeed 的分布式训练环境

    变量名值(示例)说明用法
    NCCL_DEBUGINFOINFO显示关于初始化、配置等的基本信息设置不同的调试级别,INFO ,WARN, ERROR, DETAIL, TRACE
    NCCL_NETIBIB代表 InfiniBand使NCCL库使用 InfiniBand 网络来进行节点间的通信。
    NCCL_IB_DISABLE0是否启用IB启用 InfiniBand 并确保 NCCL 能够利用它进行通信。
    MASTER_ADDRdeepspeed-training-service通信service自定义k8s该任务使用的通信service,用于节点间通信。
    MASTER_PORT6000主节点上的端口号设置分布式训练中的主节点端口,用于节点间通信。
    FORCE_TORCHRUN1是否使用 torchrun强制使用 torchrun 作为启动分布式作业的命令。
    WORLD_SIZE42机2卡设置参与分布式训练过程的进程总数。
    NNODES22个节点结合 NNODES 和 WORLD_SIZE,可以计算出每个节点上启动的进程数 。
  1. 完成上述表单的配置后,单击【确认订单】提交在线推理任务。后续用户即可在【在线推理】的列表页 / 详情页中管理推理任务。
  2. 主要包含以下几个状态
参数名称参数说明
状态创建失败:创建失败启动中:节点调度、镜像拉取、启动实例的阶段。运行中:该阶段下实例能够正常对外提供服务。已停止:用户触发停止服务的操作,正在删除实例的阶段。

在线推理任务详情

平台支持查看任务及实例的状态、运行日志、监控数据等信息,用户通过这些信息能够获取当前训练任务的进度及健康状况。

基本信息

查看任务信息、任务运行信息、计费资源信息

实例属性

查看当前推理任务所使用的容器组信息,包括容器组名称/ID、状态、容器组内节点名称、容器组创建和更新时间、以及容器的实例信息。

参数名称参数说明
实例数量总数量/运行中的数量
所属资源组所属资源组名。
资源规格显示GPU+显存+CPU+内存+系统盘
状态启动中:节点调度、镜像拉取、启动实例的阶段。运行中:该阶段下实例能够正常对外提供服务。已停止:用户触发停止服务的操作,正在删除实例的阶段。(自动删除,不展示)
创建时间精确到秒,创建时间
操作【服务日志】 跳转至 11.5.2 服务日志
CPUCPU信息
内存内存容量
重试次数重试次数

监控

展示资源使用量:GPU使用量、CPU使用量、内存使用量以及显存使用量

服务日志

选择相应的容器组,展示其日志。

删除服务

若某个服务后续不再使用时用户可以选择删除该服务。

使用前提

  1. 【在线推理】中存在 >= 1 个服务。
  2. 待删除的服务需要提前停止,当状态为【已停止】时才能删除。

操作步骤

  1. 登录平台,点击左侧导航栏中【在线推理】进入列表页面
  2. 点击列表页面-操作区域单击【删除】。