Model Gallery常见问题

本文为您介绍在PAI-Model Gallery中部署或微调训练模型时常见的问题及解决方式。

训练任务失败后,如何排查失败原因?

训练任务失败有很多可能的原因,比如用户准备的数据集格式不符合要求等。您可以尝试通过以下方式排查失败原因:

  • 查看任务诊断:在PAI-Model Gallery > 任务管理 > 训练任务中单击指定任务,在任务详情页签下鼠标悬停于失败,系统会显示错误原因及解决办法。

    image

  • 查看任务日志:在任务管理 > 训练任务中单击指定任务,在任务日志页签下查看错误信息:

    image

    具体错误信息对应解决方法如下:

    错误类型

    错误信息

    解决办法

    输入/输出错误相关

    ValueError: output channel ${your OSS uri} must be directory

    检查训练设置的输出路径是否为文件夹,系统要求输出路径必须是一个文件夹。

    ValueError:train must be a file

    检查选择的输入路径是否为文件,系统要求输入路径必须是文件。

    FileNotFoundError

    检查选择的输入路径是否存在符合要求的文件。

    JSONDecodeError

    检查输入的JSON文件格式是否正确。

    ValueError: Input data must be a json file or a jsonl file!

    检查输入文件是否符合要求,要求为JSONJSONL文件。

    KeyError:${some key name}

    多见于JSON格式训练集文件,根据模型说明页面检查训练集文件各个key-value值是否符合模型要求。

    ValueError: Unrecognized model in /ml/input/data/model/.

    PyTorch无法识别提供的模型文件。

    UnicodeDecoderError

    检查输入文件的编码格式是否正确。

    Input/output error

    检查输入路径是否具有读权限,输出路径是否具有读写权限

    NotADirectoryError: [Errno 20] Not a directory:

    检查输入/输出路径是否为文件夹。

    超参数配置相关

    ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python(且没有相关subprocess的日志)

    当前机型内存不足,加载模型时OOM(Out of Memory),请选择内存更大的机型。

    torch.cuda.OutOfMemoryError: CUDA out of memory

    当前机型显存不足,需要选择显存更大的GPU机型或者降低涉及显存的相关超参数配置,如:lora dim,batch size。

    ValueError: No closing quotation

    提供的system prompt(也可能是其他参数)中出现了单个",导致算法生成training command失败。需要删除单个",或补齐成对出现。

    机型资源配置相关

    Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run

    该模型参数格式为BF16,建议使用Ampere或更先进架构的GPU进行模型训练,例如A10/A100等。使用Ampere之前架构的GPU进行训练会将参数转换为FP16格式。

    RuntimeError: CUDA error: uncorrectable ECC error encountered

    选择的机型硬件错误。可换一个机型训练,或换个Region尝试。

    MemoryError: WARNING Insufficient free disk space

    选择的机型内存不够。需更换更大内存的机型。

    用户限制相关

    failed to compose dlc job specs, resource limiting triggered, you are trying to use more GPU resources than the threshold

    当前用户同时启动了过多作业(3个或以上),触发资源限制。请等待正在运行中的任务完成。