DSW常见问题

本文为您介绍DSW的相关问题。

目录

什么是DSW

DSW(Data Science Workshop)是PAI推出的云原生机器学习和数据科学开发平台,其中内置了Jupyterlab、WebIDEterminal 三种使用方式,同时也支持本地开发环境通过ssh登录进行远程开发,并支持多种计算资源类型和环境。您可以通过该平台在线编写及执行代码,提交代码为离线任务并将生成的训练模型下载至本地。

Notebook中如何下载文件夹?

DSWNotebook基于开源的JupyterLab开发环境,暂无法直接通过右键菜单下载文件夹。由于DSWNotebook、WebIDETerminal三种开发环境后台数据相通,因此您可以在Terminal中将文件夹通过Linux命令打包,然后在Notebook开发环境下即可通过右键下载已打包的文件夹。

拉取模型时报1005错误

当前由于国内网络受限,如果从Huggingface上拉取模型或插件时可能会报“1005”链接错误,您可以通过以下方式解决:

ProxyClient连接DSW实例时断连报错:client_loop: send disconnect: Broken pipe

在使用其通过SSH方式连接DSW实例时,若长时间不进行操作会触发断连,系统可能会提示:

image

如果要从根本上解决此问题,推荐您使用稳定性更高的SSH直连方式连接DSW实例。

DSW实例如何挂载和使用自己的NAS文件系统?

DSW实例默认提供的系统盘为临时存储,在停止或删除实例后,系统会清空数据。如果您需要永久化存储数据,则需要挂载自己NAS。您所有的NAS文件均存储在/nas目录,可以通过DSW Terminal进入该目录查看并使用文件。

新版的DSW仅支持在创建实例时,挂载自己的NAS,详情请参见创建DSW实例。实例一旦创建,则无法编辑实例信息或挂载NAS。

说明

挂载了NAS的实例,系统默认使用该NAS存储数据,不再使用临时存储。

制作镜像时报错:insufficient capacity of ephemeral storage

出错原因:制作镜像的大小校验逻辑是检查系统盘的剩余可用空间是否大于写入层的大小,如果可用空间不足,就会报这个错。

解决方案:DSW Terminal中通过df -h查看文件系统的磁盘空间占用情况,并确保overlay已使用的空间不超过/dev/vda4的可用空间,如果超过,您可以通过在制作镜像时设置自定义排除路径解决。

image

image

如何在DSW中使用第三方库

DSW支持安装第三库,可以使用DSW Terminal输入如下命令完成安装。

#Python 3版本。
pip install --user xxx
#Python 2版本。
source activate python2
pip install --user xxx

其中xxx需要替换为待安装的第三方库名称。安装成功后,需要单击kernelrestart kernel,重启服务。

运行机器学习代码时,为什么页面放置一段时间后提示重新登录?

为安全考虑,DSW登录Session的有效期为3个小时,过期后需要重新登录,但是不会影响任务的执行。如果需要长时间运行任务,建议在DSW Terminal,使用nohup命令后台执行任务。

使用ECS搭建FTP上传下载文件到NAS,执行挂载(mount)命令报错mount:wrong fs type,bad option,bad superblock

  • 现象描述

  • 解决方法

    执行mount命令之前,先安装nfs-utils安装包。

    yum install nfs-utils

如何使用DSW读取OSS数据?

进入DSW Terminal中,使用ossutil命令实现文件的上传和下载,具体操作步骤如下:

  1. DSW Terminal中下载安装ossutil,并且完成ossutil配置。具体操作,请参见安装ossutil

  2. DSW中上传文件到OSS Bucket存储空间,或从OSS Buckt存储空间下载文件到DSW。具体操作,请参见命令行工具ossutil命令参考

为什么安装的第三方包没有生效?

通过pip命令安装第三方包后,使用import命令导入时,如果出现无法查找到该包的问题,则先尝试重启服务。如果依然报错,则确认当前使用的环境。安装第三方包时,DSW默认安装到Python 3环境。如果需要安装到其他环境,则必须先手动切换环境再进行安装,示例如下。

安装到Python 2环境。
source activate python2
pip install --user xxx
安装到TensorFlow 2.0环境。
source activate tf2
pip install --user xxx

其中xxx需要替换为待安装的第三方包名称。

如何部署DSW生成的模型?

  • 使用EAS模型部署服务

    使用DSW预置的EASCMD,在Terminal中使用命令行部署模型服务,详情请参见创建DSW实例

  • 下载模型到本地部署

    您可以通过右键单击DSW生成的模型将其下载至本地。

DSW如何收费?

DSW支持预付费和后付费,您可以根据自己的实际需要选择付费方式,计费详情请参见DSW计费说明

如何查看DSW账单?

对于后付费用户,可以进入费用与成本页面查看账单明细,详情请参见查看账单明细

为什么DSW无法启动Docker?

因为DSW本身运行在容器中,所以DSW不支持安装Docker。对应的CUDA版本是底层的虚拟机预装好的,无法变更,您可以使用nvidia-smi查看对应的CUDA版本。

DSW实例启动失败

排查方法:单击DSW实例名称,在事件页签下查看报错信息。

image

通常DSW实例启动失败包含以下错误:

  • The charge of current ECI instance has been stopped, but the related resources are still being cleaned.

    • 错误原因:试用资源是公共资源,如果在使用高峰期来启动DSW实例时,有可能启动时间长达半个多小时,如果一个小时拉取不到资源,系统会提示当前地域没有您所选的规格。

    • 解决方案:尝试以下操作:

      • 切换地域。

      • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

      • 在非高峰期(如非工作时间)时使用。

      • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

  • The cluster resources are fully utilized. Please try later or other regions.

    • 错误原因:当前计算资源已完全被占用。

    • 解决方案:尝试以下操作:

      • 切换地域。

      • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

      • 在非高峰期(如非工作时间)时使用。

      • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

  • Create ECI failed because the specified instance is out of stock. It is recommended to use the multi-zone creation function to avoid the risk of stockout.

    错误原因:指定的计算资源已经售罄。

    解决方案:尝试以下操作:

    • 切换地域。

    • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

    • 在非高峰期(如非工作时间)时使用。

    • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

  • back-off 10s restarting failed container=dsw-notebook pod

    • 错误原因:系统盘已满,需要对系统盘进行扩容。

      查看系统盘占用情况:

      image

      image

    • 解决方案:通过变更配置对系统盘进行扩容:

      image

      重要

      扩容过系统盘后,无论实例是否处于运行状态,系统盘都会持续计费。如果您想停止DSW实例相关的一切计费,请删除DSW实例。删除前请务必确保必要数据已备份。

  • the available zone with vSwitch is out of stock

    • 错误原因:在创建DSW实例时配置了VPC专有网络,由于VPC下的vSwitch交换机具有可用区属性,配置交换机后,计算资源的查找范围将被限制在该交换机所在的可用区内,可能会出现资源短缺的问题。

    • 解决方案:对指定DSW实例进行配置变更,将专有网络配置为空。

      image

      说明

      如果需要使用专有网络,建议切换到另一个可用区并重新创建一个vSwitchDSW实例,以扩大可用资源的范围,避免因资源范围小而导致的货源短缺问题。

  • Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.

    • 错误原因:在创建DSW实例时,当前限制每个阿里云账号(主账号)在每个地域最多一次创建2*GPU规格的实例,当选择的规格超过2*GPU时,会创建失败。

    • 解决方案:如果您需要提升限额,请提交工单联系我们。

为什么在Terminal中没有tab键自动补全等bash功能?

因为部分镜像有使用限制,您需要手动在Terminal中输入bash并按回车键,才可以启动bash相关功能。image.png

如果您在DSW中进行AI开发时发现DSW实例规格不满足要求如何解决?

您可以按照以下操作步骤更新DSW实例规格:

  1. DSW实例列表中,单击实例名称,进入实例详情页面。

  2. 实例配置页签中,单击变更配置

  3. 变更实例配置面板中,更新实例规格。

    说明

    在更新DSW实例规格时,如果实例正在运行中,更新操作会立即重启实例。请确保您已经保存了实例中的内容。

如果挂载OSS数据集后,访问挂载目录报错Input/output error,应如何解决?

image

该问题是由于未对角色授予OSS访问权限(AliyunPAIDLCAccessingOSSRole)导致,具体授权操作,请参见PAI服务账号授权

我的内存使用率较高,怎么样进行释放?

image

如果您的内存使用率过高,影响了正常使用,您可以通过两种方式来解决。

  • 如果因内存占用过高,您已无法通过命令行进行交互,请单击右上角的停止实例;或返回到DSW控制台,单击实例所在行右侧的停止按键。等到实例停止后再打开实例。

  • 如果在实例中可以通过命令行进行交互,您可以在实例的Terminal中输入top命令,查看当前所有进程的内存占用信息。%MEM表示占用内存百分比,PID表示进程ID。image

    如果您想要结束占用内存较高的进程,请在命令行中输入:

    kill PID

    您需要将PID替换成您想要结束进程的PID。运行后可看到内存使用率降低。image

PAI可以配置PHP运行环境吗?

PAI目前不支持配置PHP运行环境。您可以构建其他环境来使用PAI,详情请参见DSW概述

运行时报错:RuntimeError: CUDA error: too many resources requested for launch

出错原因:

当您遇到该错误,表明CUDA内核请求的资源超过了可用资源,此错误通常与GPU的硬件限制有关。

解决方案:

您可以尝试重启实例,重新运行程序,如果还是不行,您就需要选择更高规格的GPU实例。

DSW实例磁盘空间有多大?

DSW实例中的文件和数据默认存储在系统盘中,并且提供一定的免费额度。公共资源组创建的实例免费额度为100GiB,专有资源组(通用计算资源或灵骏智算资源)需满足规格要求后,才会提供免费额度的系统盘。具体免费磁盘空间大小可以查看实例配置页面的系统盘选项。操作步骤:

  1. 单击实例列表页的实例名称。

  2. 在右上角单击变更配置,然后下拉找到系统盘

image

如果您的磁盘空间使用量超过了免费额度,可以选择扩容系统盘或者设置挂载配置,详情请参见扩容系统盘和挂载数据集使用说明