功能总览
大约 2 分钟
功能总览
1.开发机
【开发机】是为机器学习开发者提供的在线编译、调试代码和模型开发的模块。开发机支持使用 WebIDE 在线开发,或通过 SSH 连接开发机远程开发,也提供了持久化的云盘存储服务和共享文件系统用于存储开发中的数据。开发机在关机后,平台会释放开发机的算力,保存之前的操作、下载的数据和配置环境等。
2.分布式训练
【分布式训练】模块为用户提供了灵活易用的AI训练环境。预置了 PytorchJob、DeepSpeed 多种分布式训练框架,用户无需关心底层机器调度和运维,上传代码和填写适量的参数即可快速发起分布式训练任务。
3.镜像仓库
训练和部署模型除了需要硬件计算资源外,还需要 Docker 镜像 作为运行环境,该环境中封装了程序运行所需的软件依赖项。
4.专属资源组
智算平台提供【专属资源组】用于购买和管理资源,用户(通常是运维工程师或者负责资源购买及管理的人员)可以通过 包年包月 的方式以高性价比批量购买资源。在资源组到期之前用户可随时使用这部分资源,不会收取额外费用。
5.存储空间
【存储空间】主要用于支持大规模数据处理与分析,保证数据的高效存取和管理。
6.项目
整个平台依据项目隔离,为团队开发者提供不同的资源、存储空间、镜像仓库。