文档

PAI EAS模型在线服务部署不成功一直提示等待中

更新时间:
一键部署

问题描述

EAS模型在线服务部署不成功的原因有多种,需具体情况具体分析。以下列举出常见失败的原因以及对应解决方案,帮助您在部署不成功时可以通过FAQ来解决部分问题。

问题原因和解决方案

1. PAI EAS在线服务部署一直提示 “等待中” 或“pending”,该如何解决?

请查看相应的日志和报错信息,可能的原因跟对应解决方案如下:

  • 内存设置不足导致出现了OOM,建议调大内存配置。
  • OSS的路径配置有误,建议修改为 oss://<bucketname>/models/

2. PAI EAS在线服务部署的时候报错:[FAILED] Mount path can not be empty

问题原因:没有配置storage参数

解决方案:建议配置中加上 storage:

{ 
      "name": ”xxxx",
      "storage": {
            "mount_path": "/oss",
            "oss": {
                "endpoint": " ",
                "path": " "
            }
        }
}

 

3. PAI EAS在线服务部署的时候报错:[ERROR] Fail to load model, Got Exception: istream reader failed: checking archive.

问题原因:模型文件类型错误

解决方案:PAI EAS预置的pytorch processor是基于c++ libtorch开发,仅支持加载TorchScript模型。请参考PyTorch官方教程将模型保存为TorchScript模型。

 

更多信息

服务部署的参数配置可以参考如下模板:

{
  "containers": [
    {
      "command": "tritonserver --model-repository=/oss --exit-on-error=true --allow-http=true",
      "image": "***-vpc.cn-shanghai.aliyuncs.com/eas/tritonserver:21.03-py3",
      "port": 8000
    }
  ],
  "metadata": {
    "cpu": 4,
    "gpu": 1,
    "instance": 1,
    "memory": 10000,
    "name": "lv_test",
    "qos": "BestEffort",
    "resource": "your resource"
  },
  "name": "lv_****_test",
  "storage": [
        {
            "mount_path": "/oss",
            "oss": {
                "endpoint": "oss-cn-shanghai-internal.aliyuncs.com",
                "path": "oss://<bucketname>/models/"
            }
        }
    ]
}

适用范围

机器学习PAI

  • 本页导读
文档反馈