使用PAI-Rapidformer进行模型的训练加速时,您需要先完成Rapidformer镜像的安装。本文为您介绍安装Rapidformer镜像的使用限制和操作要点。
使用限制
- 当前Rapidformer镜像支持的地域为上海、北京、杭州、深圳,其他地域暂不支持。
 - 安装Rapidformer镜像时,仅支持使用GPU类型的实例。
 
step1:添加Rapidformer镜像
      - 
        
         关联ACR镜像
        
        :需要配置为对应工作空间所在地域的Rapidformer镜像地址。
        
Rapidformer当前支持上海、北京、杭州、深圳这四个地域,不同地域的镜像地址请参见下文的 参考:Rapidformer镜像地址 。
 - 其他参数:镜像名称、可见范围等参数根据实际情况配置即可。
 
step2:在PAI-DLC或DSW中安装镜像
在PAI-DLC中安装
PAI-DLC为开发者和企业提供了云原生一站式的深度学习训练平台,为您提供灵活、稳定、易用和高性能的机器学习训练环境。支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架,为开发者和企业降本增效。
DLC提供了加载用户自定义镜像的能力,这极大方便了Rapidformer的部署。只需将镜像地址传给DLC,即可自动安装Rapidformer镜像,安装完成后就可以在DLC上基于Rapidformer开展多机多卡超大规模分布式训练。
       其中:
       - 节点镜像 :需要选择 用户自定义镜像 ,并在镜像地址的配置框中选择上述步骤添加的Rapidformer自定义镜像。
 - 任务类型 :需要选择为 Pytorch 。
 - 节点配置 :需要选择 GPU 类型的节点,并根据实际情况选择具体的节点规格。
 - 其他参数:镜像名称、执行命令等参数根据实际情况配置即可。
 
各参数的详细介绍及操作步骤请参见 提交任务(通过控制台) 。
在PAI-DSW中安装
PAI-DSW(Data Science Workshop)是为算法开发者量身打造的云端深度学习开发环境,集成JupyterLab,插件化深度定制化开发,无需任何运维配置,沉浸式体验Notebook编写、调试及运行Python代码。支持开源框架的安装,并提供阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。
DSW也提供了加载用户自定义镜像的能力,只需将镜像地址传给DSW,即可自动安装Rapidformer,安装完成后就可以在DSW上基于Rapidformer调试训练加速程序。
       其中:
       - 实例资源 :需选择 GPU实例 类型的实例,并根据实际情况选择所需的实例规格。
 - 选择镜像 :需选择 用户自定义镜像 ,并在镜像地址的配置框中选择上述步骤添加的Rapidformer自定义镜像。
 - 其他参数:实例名称、实例版本等参数根据实际情况配置即可。
 
step3:安装后试用
        /workspace/examples
       
       目录,此目录下为您提供了
       
        nlp
       
       案例,您可以直接试用此案例。下图为在DSW安装镜像后,进入目录查找案例的示意图。
       
      参考:Rapidformer镜像地址
- 上海地域:pai-image-manage-registry.cn-shanghai.cr.aliyuncs.com/pai/pai-rapidformer:1.7
 - 北京地域:pai-image-manage-registry.cn-beijing.cr.aliyuncs.com/pai/pai-rapidformer:1.7
 - 杭州地域:pai-image-manage-registry.cn-hangzhou.cr.aliyuncs.com/pai/pai-rapidformer:1.7
 - 深圳地域:pai-image-manage-registry.cn-shenzhen.cr.aliyuncs.com/pai/pai-rapidformer:1.7