本文为您介绍 DSW 的相关问题。
目录
什么是 DSW ?
DSW (Data Science Workshop)是PAI推出的云原生机器学习和数据科学开发平台,其中内置了Jupyterlab、WebIDE和terminal 三种使用方式,同时也支持本地开发环境通过ssh登录进行远程开发,并支持多种计算资源类型和环境。您可以通过该平台在线编写及执行代码,提交代码为离线任务并将生成的训练模型下载至本地。
Notebook中如何下载文件夹?
DSW中Notebook基于开源的JupyterLab开发环境,暂无法直接通过右键菜单下载文件夹。由于DSW中Notebook、WebIDE和Terminal三种开发环境后台数据相通,因此您可以在Terminal中将文件夹通过Linux命令打包,然后在Notebook开发环境下即可通过右键下载已打包的文件夹。
拉取模型时报1005错误
当前由于国内网络受限,如果从Huggingface上拉取模型或插件时可能会报“1005”链接错误,您可以通过以下方式解决:
-
通过国内镜像源进行拉取。
-
为本地网络设置代理。
-
上传本地模型,详情请参见 上传与下载数据文件 。
ProxyClient连接DSW实例时断连报错: client_loop: send disconnect: Broken pipe
在使用其通过SSH方式连接DSW实例时,若长时间不进行操作会触发断连,系统可能会提示:
如果要从根本上解决此问题,推荐您使用稳定性更高的 直连方式 连接DSW实例。
DSW 实例如何挂载和使用自己的NAS文件系统?
DSW 实例默认提供的系统盘为临时存储,在停止或删除实例后,系统会清空数据。如果您需要永久化存储数据,则需要挂载自己NAS。您所有的NAS文件均存储在 /nas 目录,可以通过 DSW Terminal进入该目录查看并使用文件。
新版的 DSW 仅支持在创建实例时,挂载自己的NAS,详情请参见 创建DSW实例 。实例一旦创建,则无法编辑实例信息或挂载NAS。
挂载了NAS的实例,系统默认使用该NAS存储数据,不再使用临时存储。
如何在 DSW 中使用第三方库
DSW 支持安装第三库,可以使用 DSW Terminal输入如下命令完成安装。
#Python 3版本。
pip install --user xxx
#Python 2版本。
source activate python2
pip install --user xxx
其中xxx需要替换为待安装的第三方库名称。安装成功后,需要单击 kernelrestart kernel ,重启服务。
运行机器学习代码时,为什么页面放置一段时间后提示重新登录?
为安全考虑,
DSW
登录Session的有效期为3个小时,过期后需要重新登录,但是不会影响任务的执行。如果需要长时间运行任务,建议在
DSW
Terminal,使用
nohup
命令后台执行任务。
使用ECS搭建FTP上传下载文件到NAS,执行挂载(mount)命令报错mount:wrong fs type,bad option,bad superblock
-
现象描述
-
解决方法
执行
mount
命令之前,先安装nfs-utils安装包。yum install nfs-utils
如何使用 DSW 读取OSS数据?
进入
DSW
Terminal中,使用
ossutil
命令实现文件的上传和下载,具体操作步骤如下:
-
在 DSW Terminal中下载安装ossutil,并且完成ossutil配置。具体操作,请参见 安装ossutil 。
-
在 DSW 中上传文件到OSS Bucket存储空间,或从OSS Buckt存储空间下载文件到 DSW 。具体操作,请参见 命令行工具ossutil命令参考 。
为什么通过公网无法访问DSW中部署的服务?
当前,DSW模块侧重于在开发阶段对模型服务的调试训练,暂不支持公网访问DSW上部署的服务。如果您已完成对模型的调试训练,您可以将模型部署在 EAS服务 中作为生产环境,EAS服务提供完整的 公网访问 能力。
为什么安装的第三方包没有生效?
通过
pip
命令安装第三方包后,使用
import
命令导入时,如果出现无法查找到该包的问题,则先尝试重启服务。如果依然报错,则确认当前使用的环境。安装第三方包时,
DSW
默认安装到Python 3环境。如果需要安装到其他环境,则必须先手动切换环境再进行安装,示例如下。
安装到Python 2环境。
source activate python2
pip install --user xxx
安装到TensorFlow 2.0环境。
source activate tf2
pip install --user xxx
其中xxx需要替换为待安装的第三方包名称。
如何部署 DSW 生成的模型?
-
使用 EAS 模型部署服务
使用 DSW 预置的EASCMD,在Terminal中使用命令行部署模型服务,详情请参见 创建DSW实例 。
-
下载模型到本地部署
您可以通过右键单击 DSW 生成的模型将其下载至本地。
DSW 如何收费?
DSW 支持预付费和后付费,您可以根据自己的实际需要选择付费方式,计费详情请参见 DSW计费说明 。
如何查看 DSW 账单?
对于后付费用户,可以进入用户中心查看账单明细,详情请参见 查看账单与用量明细 。
为什么 DSW 无法启动Docker?
因为
DSW
本身运行在容器中,所以
DSW
不支持安装Docker。对应的CUDA版本是底层的虚拟机预装好的,无法变更,您可以使用
nvidia-smi
查看对应的CUDA版本。
启动
DSW
实例失败提示
The cluster resources are fully utilized
如何解决?
当启动
DSW
实例失败提示
The cluster resources are fully utilized. Please try later or other regions.
时,您可以参考以下方法进行处理:
-
更换实例规格:尝试选择不同的实例规格,有些规格可能更容易获取资源。
-
更换地域:尝试选择其他可用地域,该地域的资源可能更加充足。
-
尝试在非高峰期创建:尝试在非高峰期创建 DSW 实例,例如晚上或周末时段。
-
如果上述方法均无法解决问题,请联系您的商务经理进行处理。
启动
DSW
实例失败提示
back-off 10s restarting failed container=dsw-notebook pod
如何解决?
当启动
DSW
实例失败提示
back-off 10s restarting failed container=dsw-notebook pod
时,表示您的系统盘已经占满,您可以通过对系统盘扩容进行处理:
-
打开链接 更新DSW实例 。
-
在 服务地址 处选择您需要扩容的DSW实例所在地域,填写 实例ID ,以及 云盘容量 (以Gi结尾),其它参数非必填。
-
单击下方的 发起调用 。 调用结果 处显示 调用成功 即表示扩容成功。
启动
DSW
实例时提示
the available zone with vSwitch is out of stock
如何解决?
您在创建 DSW 实例时配置了VPC专有网络,由于VPC下的vSwitch交换机具有可用区属性,配置交换机后,计算资源的查找范围将被限制在该交换机所在的可用区内,可能会出现资源短缺的问题。
-
在DSW实例列表中,单击实例名称,进入实例详情页面。
-
在 实例配置 页签中,单击 变更配置 。
-
修改网络配置,将 专有网络 留空。
说明如果需要使用专有网络,建议切换到另一个可用区并重新创建一个vSwitch和 DSW 实例,以扩大可用资源的范围,避免因范围资小而导致的货源短缺问题。
启动DSW实例失败,提示
Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.
如何解决?
由于每个阿里云账号(主账号)在每个Region有2卡GPU的限制,当资源使用量超出限额时可能会出现该问题。如果您需要提升限额,请 提交工单 联系我们。
为什么在Terminal中没有tab键自动补全等bash功能?
因为部分镜像有使用限制,您需要手动在Terminal中输入bash并按回车键,才可以启动bash相关功能。
如果您在DSW中进行AI开发时发现DSW实例规格不满足要求如何解决?
您可以按照以下操作步骤更新DSW实例规格:
-
在DSW实例列表中,单击实例名称,进入实例详情页面。
-
在 实例配置 页签中,单击 变更配置 。
-
在 变更实例配置 面板中,更新实例规格。
说明在更新DSW实例规格时,如果实例正在运行中,更新操作会立即重启实例。请确保您已经保存了实例中的内容。
如果挂载OSS数据集后,访问挂载目录报错Input/output error,应如何解决?
该问题是由于未对角色授予OSS访问权限(AliyunPAIDLCAccessingOSSRole)导致,具体授权操作,请参见 PAI服务账号授权 。