文档

QuickStart常见问题

更新时间:

本文为您介绍在快速开始(QuickStart)中部署或微调训练模型时常见的问题及解决方式。

训练任务失败后,如何排查失败原因?

训练任务失败有很多可能的原因,比如用户准备的数据集格式不符合要求等。您可以尝试通过以下方式排查失败原因:

  • 查看任务诊断:在任务管理 > 训练任务中单击指定任务,在任务详情页签下鼠标悬停于失败,系统会显示错误原因及解决办法。

    image

  • 查看任务日志:在任务管理 > 训练任务中单击指定任务,在任务日志页签下查看错误信息:

    image

    具体错误信息对应解决方法如下:

    错误类型

    错误信息

    解决办法

    输入/输出错误相关

    ValueError: output channel ${your OSS uri} must be directory

    检查训练设置的输出路径是否为文件夹,系统要求输出路径必须是一个文件夹。

    ValueError:train must be a file

    检查选择的输入路径是否为文件,系统要求输入路径必须是文件。

    FileNotFoundError

    检查选择的输入路径是否存在符合要求的文件。

    JSONDecodeError

    检查输入的JSON文件格式是否正确。

    KeyError:${some key name}

    多见于JSON格式训练集文件,根据模型说明页面检查训练集文件各个key-value值是否符合模型要求。

    超参数配置相关

    ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -9) local_rank: 0 (pid: 51) of binary: /usr/bin/python(且没有相关subprocess的日志)

    当前机型内存不足,加载模型时OOM(Out of Memory),请选择内存更大的机型。

    torch.cuda.OutOfMemoryError: CUDA out of memory

    当前机型显存不足,需要选择显存更大的GPU机型或者降低涉及显存的相关超参数配置,如:lora dim,batch size。

    ValueError: No closing quotation

    提供的system prompt(也可能是其他参数)中出现了单个",导致算法生成training command失败。需要删除单个",或补齐成对出现。