PAI EAS模型在线服务部署不成功一直提示等待中
更新时间:
问题描述
EAS模型在线服务部署不成功的原因有多种,需具体情况具体分析。以下列举出常见失败的原因以及对应解决方案,帮助您在部署不成功时可以通过FAQ来解决部分问题。
问题原因和解决方案
1. PAI EAS在线服务部署一直提示 “等待中” 或“pending”,该如何解决?
请查看相应的日志和报错信息,可能的原因跟对应解决方案如下:
- 内存设置不足导致出现了OOM,建议调大内存配置。
- OSS的路径配置有误,建议修改为
oss://<bucketname>/models/
。
2. PAI EAS在线服务部署的时候报错:[FAILED] Mount path can not be empty
问题原因:没有配置storage参数
解决方案:建议配置中加上 storage:
{
"name": ”xxxx",
"storage": {
"mount_path": "/oss",
"oss": {
"endpoint": " ",
"path": " "
}
}
}
3. PAI EAS在线服务部署的时候报错:[ERROR] Fail to load model, Got Exception: istream reader failed: checking archive.
问题原因:模型文件类型错误
解决方案:PAI EAS预置的pytorch processor是基于c++ libtorch开发,仅支持加载TorchScript模型。请参考PyTorch官方教程将模型保存为TorchScript模型。
更多信息
服务部署的参数配置可以参考如下模板:
{
"containers": [
{
"command": "tritonserver --model-repository=/oss --exit-on-error=true --allow-http=true",
"image": "***-vpc.cn-shanghai.aliyuncs.com/eas/tritonserver:21.03-py3",
"port": 8000
}
],
"metadata": {
"cpu": 4,
"gpu": 1,
"instance": 1,
"memory": 10000,
"name": "lv_test",
"qos": "BestEffort",
"resource": "your resource"
},
"name": "lv_****_test",
"storage": [
{
"mount_path": "/oss",
"oss": {
"endpoint": "oss-cn-shanghai-internal.aliyuncs.com",
"path": "oss://<bucketname>/models/"
}
}
]
}
适用范围
机器学习PAI
反馈
- 本页导读
文档反馈