DSW常见问题

更新时间:2025-05-06 09:44:06

本文为您介绍DSW的相关问题。

实例启动

  1. DSW实例启动失败

    排查方法:单击DSW实例名称,在事件页签下查看报错信息。

    image

    通常DSW实例启动失败包含以下错误:

    • Your requested resource type [ecs.******] is not enough currently, please try other regions or other resource types

      • 错误原因:该地域下您所选取的资源规格库存紧张,导致无法创建实例。

      • 解决方案:稍后再尝试创建,或者更换其他资源规格和地域。

    • Your resource usage has exceeded the default limitation. Please contact us via ticket system to raise the limitation.

      • 错误原因:在创建DSW实例时,当前限制每个阿里云账号(主账号)在每个地域最多一次创建2*GPU规格的实例,当选择的规格超过2*GPU时,会创建失败。

      • 解决方案:如果您需要提升限额,请提交工单联系我们。

    • Sales of this resource are temporarily suspended in the specified zone. We recommend that you use the multi-zone creation function to avoid the risk of insufficient resource.

      当前指定区域的资源销售已暂停,您可以尝试以下操作来规避资源不足的风险:

      • 切换至其他地域。

      • 调整实例的资源规格。

      • 尝试在非高峰时段启动实例。

    • The charge of current ECI instance has been stopped, but the related resources are still being cleaned.

      • 错误原因:试用资源是公共资源,如果在使用高峰期来启动DSW实例时,有可能启动时间长达半个多小时,如果一个小时拉取不到资源,系统会提示当前地域没有您所选的规格。

      • 解决方案:尝试以下操作:

        • 切换地域。

        • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

        • 在非高峰期(如非工作时间)时使用。

        • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

    • The cluster resources are fully utilized. Please try later or other regions.

      • 错误原因:当前计算资源已完全被占用。

      • 解决方案:尝试以下操作:

        • 切换地域。

        • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

        • 在非高峰期(如非工作时间)时使用。

        • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

    • Create ECI failed because the specified instance is out of stock. It is recommended to use the multi-zone creation function to avoid the risk of stockout.

      错误原因:指定的计算资源已经售罄。

      解决方案:尝试以下操作:

      • 切换地域。

      • 变配实例的资源规格(等待中的实例不支持修改规格,您可手动停止实例,然后进行规格切换)。

      • 在非高峰期(如非工作时间)时使用。

      • 如果上述方法均无法解决问题,请联系您的商务经理进行处理。

    • back-off 10s restarting failed container=dsw-notebook pod

      • 错误原因:系统盘已满,需要对系统盘进行扩容。

        查看系统盘占用情况:

        image

        image

      • 解决方案:通过变更配置对系统盘进行扩容:

        image

        重要

        扩容过系统盘后,无论实例是否处于运行状态,系统盘都会持续计费。如果您想停止DSW实例相关的一切计费,请删除DSW实例。删除前请务必确保必要数据已备份。

    • the available zone with vSwitch is out of stockInternalError-ResourceAllocateFailed

      • 错误原因:在创建DSW实例时配置了VPC专有网络,由于VPC下的vSwitch交换机具有可用区属性,配置交换机后,计算资源的查找范围将被限制在该交换机所在的可用区内,可能会出现资源短缺的问题。

      • 解决方案:对指定DSW实例进行配置变更,将专有网络配置为空。

        image

        说明

        如果需要使用专有网络,建议切换到另一个可用区并重新创建一个vSwitchDSW实例,以扩大可用资源的范围,避免因资源范围小而导致的货源短缺问题。

    • InternalError-Failed to perform action, error: OperationDenied.NoStock: The resource is out of stock in the specified zone. Please try other types, or choose other regions and zones.

      指定区域的资源暂时缺货,请尝试选择其他类型或更换到其他区域。

    • RISK.RISK_CONTROL_REJECTION

      账号因为风控的原因被限制了,需要解除风控后才能进行创建。

    其他启动失败原因:

    • 欠费导致创建失败

      如果您的账号欠费,将导致创建DSW实例创建失败,并且代金券不能抵扣欠费,您可登录费用与成本控制台,查看账户是否欠费。

  1. DSW启动时可以开机执行Python文件吗?

    目前,DSW启动时不支持开机执行Python文件。

  1. 启动DSW实例时间越来越长

    每次启动时间逐渐变长可能是由于您的保存镜像体积较大所致。

模型拉取

  1. 拉取模型时报1005错误

    当前由于国内网络受限,如果从Huggingface上拉取模型或插件时可能会报“1005”链接错误,您可以通过以下方式解决:

镜像使用

  1. 制作镜像时报错:insufficient capacity of ephemeral storage

    出错原因:制作镜像的大小校验逻辑是检查系统盘的剩余可用空间是否大于写入层的大小,如果可用空间不足,就会报这个错。

    解决方案:DSW Terminal中通过df -h查看文件系统的磁盘空间占用情况,并确保overlay已使用的空间不超过/dev/vda4的可用空间,如果超过,您可以通过在制作镜像时设置自定义排除路径解决。

    image

    image

  1. DSW如何使用Docker镜像?

    • 使用Docker镜像启动DSW实例:您可以将Docker镜像推送至阿里云容器镜像服务ACR中,然后再将其添加至PAI工作空间的自定义镜像中,即可在创建DSW实例时选择对应镜像启动实例。

    • DSW的云端IDE中安装和使用Docker:DSW本身运行在容器中,因此在DSW的云端IDE中无法安装和使用Docker。

  1. 制作镜像,DSW实例状态一直处于保存中

    一般是由于实例hang住了,可能原因是镜像体积过大而机器规格过小,导致机器负载过高。

  1. 制作镜像时报错:failed to push image registry-vpc.cn-shenzhen.aliyuncs.com/mystu/stu:eas-service, please try again later, failed to commit image, error: different registry for base images and commit image

    请先核实保存的镜像信息。以 _accelerated 结尾的镜像是加速镜像,目前无法保存到用户的镜像仓库。

  1. 如何查看镜像的python版本?

    您可以通过运行 python -V 来确认Python版本。不同镜像内的Python版本可能有所不同,参考自定义镜像查看镜像信息。

  1. Notebook保存的镜像存放在哪里了?

    • Notebook对应的是DSW实例,每个实例都分配了一定的计算资源,支持代码编辑、调试和训练。您可以在DSW上保存Notebook的镜像,生成的新镜像将存放在镜像管理列表中的用户自定义镜像中。新建DSW实例时,可以直接选择这些自定义镜像。如果尚未创建任何自定义镜像,则只能选择默认的官方镜像。

    • 自行创建的镜像不会受到任何操作的影响。即使官方提供的镜像进行了更新,自建的镜像仍然保持原有的配置,不会发生变化。

系统盘、磁盘扩容

  1. DSW实例磁盘空间有多大,磁盘满了怎么办?

    DSW实例中的文件和数据默认存储在系统盘中,并且提供一定的免费额度。

    • 查看免费额度

      公共资源组创建的实例免费额度为100 GiB,专有资源组(通用计算资源或灵骏智算资源)需满足规格要求后,才会提供免费额度的系统盘。具体免费磁盘空间大小可以查看实例配置页面的系统盘选项。操作步骤:

      1. 单击实例列表页的实例名称。

      2. 在右上角单击变更配置,然后下拉找到系统盘

      image

    • 查看系统盘使用量

      单击DSW实例名称,在环境信息区域可以查看系统盘的用量。

      image

    • 系统盘满了如何扩容

      如果磁盘空间使用量超过了免费额度,您可以选择扩容系统盘或挂载数据集

挂载配置

  1. DSW实例如何挂载和使用自己的NAS文件系统?

    DSW实例默认提供的系统盘为临时存储,在停止或删除实例后,系统会清空数据。如果您需要永久化存储数据,则需要挂载同地域下的NAS文件系统。您所有的NAS文件均存储在/nas目录,可以通过DSW Terminal进入该目录查看并使用文件。

    新版的DSW仅支持在创建实例时,挂载同地域下的NAS文件系统,详情请参见创建DSW实例。实例一旦创建,则无法编辑实例信息或挂载NAS。

    说明

    挂载了NAS的实例,系统默认使用该NAS存储数据,不再使用临时存储。

  1. 使用ECS搭建FTP上传下载文件到NAS,执行挂载(mount)命令报错mount:wrong fs type,bad option,bad superblock

    • 现象描述

    • 解决方法

      执行mount命令之前,先安装nfs-utils安装包。

      yum install nfs-utils
  1. 如果挂载OSS数据集后,访问挂载目录报错Input/output error,应如何解决?

    image

    该问题是由于未对角色授予OSS访问权限(AliyunPAIDLCAccessingOSSRole)导致,具体授权操作,请参见PAI服务账号授权

  1. 如何在使用jindo挂载OSS数据集时降低OOM(Out of Memory)风险?

    可以通过以下两种方式解决:

    • 方式一:使用jindo6.8.1版本,该版本优化了内存。

      {
          "fs.jindo.fuse.pod.image.tag":"6.8.1"
      }

      image

    • 方式二:使用ossfs。

      在提交任务时,指定:

      {
          "mountType": "ossfs"
      }

      image

      如果希望一定不发生OOM,需要配置:

      {
          "mountType": "ossfs",
          "fs.ossfs.args": "-oreaddirplus=false"
      }
  1. 挂载NAS提示扮演角色失败

    如果您在创建DSW实例时挂载NAS失败:显示扮演角色失败。请参考如下方法进行处理,然后再次尝试挂载:

    1. 单击此处授权NAS拥有对您云资源相应的访问权限。

    2. 单击此处授权ODPS拥有对您云资源相应的访问权限。

  1. DSW实例重启后里边的文件全丢失

    如果DSW实例未挂载数据集,则在停止或删除DSW实例后,相关数据将无法恢复。因此,在停止之前,请确保已挂载数据集。如果没有挂载,请尽快备份您的数据和资料,完成备份后再进行停止操作,以避免数据丢失。

数据读取、上传和下载

  1. 如何使用DSW读取OSS数据?

    您可以使用Python SDKAPI读取OSS数据,详情请参见读写OSS数据

  1. 如何上传下载文件夹?

    目前DSW不支持直接上传和下载文件夹,但您可以通过打包为压缩文件的方式实现文件夹的上传和下载。DSW Terminal提供了一个Linux环境,可以使用标准的Linux命令行工具,如targzipunzip等,来解压缩文件。以tar为例使用示例如下。

    1. 使用tar --version查看tar是否安装,如果没有,则可参考如下命令进行安装。

      # 对于基于Debian的系统(例如 Ubuntu)的安装命令
      sudo apt install tar
      
      # 基于Red Hat的系统(例如CentOS、Fedora)的安装命令
      sudo yum install tar
    2. 解压缩文件夹。

      # 压缩文件夹, /path/to/diretory为要压缩的文件夹
      tar -cvf archive_name.tar /path/to/directory
      
      # 解压文件夹
      tar -xvf archive_name.tar
  1. DSW训练算法模型时,通过ODPS读取数仓数据的上限为10000条,如何解决这一限制问题?

    ODPS的默认查询限制为10000条,这对写入或插入操作没有影响。您可以联系您的ODPS管理员,请求更改配置以允许下载或读取全量数据。

远程连接实例

  1. ProxyClient连接DSW实例时断连报错:client_loop: send disconnect: Broken pipe

    在使用其通过SSH方式连接DSW实例时,若长时间不进行操作会触发断连,系统可能会提示:

    image

    如果要从根本上解决此问题,推荐您使用稳定性更高的SSH直连方式连接DSW实例。

  1. 使用VSCode远程连接了实例,打开本地文件夹失败

    一般是由于Vscode客户端的影响产生的问题,建议将本地文件上传至云端的DSW中,具体操作可参考上传与下载数据文件

网络问题

  1. 网络下载速度过慢如何解决

    由于DSW、DLC实例默认使用共享网关,受带宽限制,下载大型文件时网速可能无法满足需求。因此,当您想要提升网络上传和下载速度时,可以为实例所在专有网络(VPC)创建公网NAT网关、绑定弹性IP(EIP)并配置SNAT,从而使实例通过专有公网网关高速访问互联网

  2. DSW实例是否有公网IP

    DSW实例默认情况下不分配公网IP。如果您需要访问外网或让外部访问您的DSW实例,建议您配置NAT网关或使用弹性公网IP(EIP),详情请参见DSW网络配置

第三方库安装

  1. 如何在DSW中使用第三方库

    DSW支持安装第三库,可以使用DSW Terminal输入如下命令完成安装。

    #Python 3版本。
    pip install --user xxx
    #Python 2版本。
    source activate python2
    pip install --user xxx

    其中xxx需要替换为待安装的第三方库名称。安装成功后,需要单击kernelrestart kernel,重启服务。

  1. 为什么安装的第三方包没有生效?

    通过pip命令安装第三方包后,使用import命令导入时,如果出现无法查找到该包的问题,则先尝试重启服务。如果依然报错,则确认当前使用的环境。安装第三方包时,DSW默认安装到Python 3环境。如果需要安装到其他环境,则必须先手动切换环境再进行安装,示例如下。

    安装到Python 2环境。
    source activate python2
    pip install --user xxx
    安装到TensorFlow 2.0环境。
    source activate tf2
    pip install --user xxx

    其中xxx需要替换为待安装的第三方包名称。

模型部署

  1. 如何部署DSW生成的模型?

    • 使用EAS模型部署服务

      在完成模型建模后,您可以使用PAI-EAS将模型部署为在线服务,详情请参见将模型部署为在线服务

    • 下载模型到本地部署

      您可以通过右键单击DSW生成的模型将其下载至本地。

计费和账单

  1. DSW如何收费?

    DSW支持预付费和后付费,您可以根据自己的实际需要选择付费方式,计费详情请参见DSW计费说明

  1. 如何查看DSW账单?

    对于后付费用户,可以进入费用与成本页面查看账单明细,详情请参见查看账单明细

  1. 创建DSW实例时提示余额不足无法创建?

    开通按量计费时,需要账户预留100元现金余额,但实际上产生的费用会从托管主账号的额度中扣除。

实例运行

  1. 运行机器学习代码时,为什么页面放置一段时间后提示重新登录?

    为安全考虑,DSW登录Session的有效期为3个小时,过期后需要重新登录,但是不会影响任务的执行。如果需要长时间运行任务,建议在DSW Terminal,使用nohup命令后台执行任务。

  1. 为什么DSW无法启动Docker?

    因为DSW本身运行在容器中,所以DSW不支持安装Docker。对应的CUDA版本是底层的虚拟机预装好的,无法变更,您可以使用nvidia-smi查看对应的CUDA版本。

  1. 为什么在Terminal中没有tab键自动补全等bash功能?

    因为部分镜像有使用限制,您需要手动在Terminal中输入bash并按回车键,才可以启动bash相关功能。image.png

  1. 如果您在DSW中进行AI开发时发现DSW实例规格不满足要求如何解决?

    您可以按照以下操作步骤更新DSW实例规格:

    1. DSW实例列表中,单击实例名称,进入实例详情页面。

    2. 实例配置页签中,单击变更配置

    3. 变更实例配置面板中,更新实例规格。

      说明

      在更新DSW实例规格时,如果实例正在运行中,更新操作会立即重启实例。请确保您已经保存了实例中的内容。

  1. 我的内存使用率较高,怎么样进行释放?

    image

    如果您的内存使用率过高,影响了正常使用,您可以通过两种方式来解决。

    • 如果因内存占用过高,您已无法通过命令行进行交互,请单击右上角的停止实例;或返回到DSW控制台,单击实例所在行右侧的停止按键。等到实例停止后再打开实例。

    • 如果在实例中可以通过命令行进行交互,您可以在实例的Terminal中输入top命令,查看当前所有进程的内存占用信息。%MEM表示占用内存百分比,PID表示进程ID。image

      如果您想要结束占用内存较高的进程,请在命令行中输入:

      kill PID

      您需要将PID替换成您想要结束进程的PID。运行后可看到内存使用率降低。image

  1. 运行时报错:RuntimeError: CUDA error: too many resources requested for launch

    出错原因:当您遇到该错误,表明CUDA内核请求的资源超过了可用资源,此错误通常与GPU的硬件限制有关。

    解决方案:您可以尝试重启实例,重新运行程序,如果还是不行,您就需要选择更高规格的GPU实例。

  1. PAI可以配置PHP运行环境吗?

    PAI目前不支持配置PHP运行环境。您可以构建其他环境来使用PAI,详情请参见DSW概述

  1. 如何Debug代码?

    DSW暂未提供Debug功能,您可以查看运行日志,了解代码运行情况。

  1. 对接微服务引擎Nacos连接失败

    在创建DSW实例时,您可以选择与Nacos配置中心一致的VPC。这样能确保DSW实例所在的VPCNacos配置中心VPC打通。

  1. 报错OOM

    如果您在使用DSW实例时遇到OOM报错,建议增加实例内存,或减少模型中树的数量。

  1. Notebook无法保存:File Save Error for *.ipynb

    请清空Notebook的输出。当Notebook大小超过5 MB时,将无法保存。

  • 本页导读 (1)
  • 实例启动
  • 模型拉取
  • 镜像使用
  • 系统盘、磁盘扩容
  • 挂载配置
  • 数据读取、上传和下载
  • 远程连接实例
  • 网络问题
  • 第三方库安装
  • 模型部署
  • 计费和账单
  • 实例运行