配置Python/Shell任务引用的数据集

更新时间:
复制为 MD 格式

使用限制

  • 仅开通非结构化数据功能后才可添加数据集。

  • Basic项目下的PythonShell任务支持添加数据集,每个任务最多添加5数据集。

操作步骤

  1. Dataphin首页的顶部菜单栏中,选择研发 > 数据研发

  2. 开发页面的顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。

  3. 在左侧导航栏中选择数据处理 > 计算任务

  4. 在计算任务列表中,单击目标Python/Shell任务,打开对应任务页签。

  5. 单击页面右侧边栏的属性,打开属性面板,并在数据集区域内单击添加数据集,并配置以下参数。

    • 数据集:可选择当前项目下的文件数据集混合数据集

    • 版本:可选择所选数据集的所有版本。

      说明

      同一数据集同一版本不可重复选择。

    • 挂载路径:默认填充所选数据集版本的挂载路径,您可在此基础上修改。挂载路径固定以/mnt/data/开头。引用多个数据集时,挂载路径/mnt/data/{dir}, {dir}不可互相包含。

    • 只读:默认关闭,即默认支持读写。开启后,仅支持只读,不支持写入。

    添加的数据集支持查看和删除操作。

    • 查看:单击查看图标,跳转至编辑数据集页面,您可查看对应数据集信息,同时支持修改数据集基本信息和编辑数据集版本。编辑操作详情请参见数据集

    • 删除:单击删除图标,删除对应数据集。

    引用数据集后,在任务运行环境中,数据集的路径(开发环境为开发路径,生产环境为生产路径)将挂载到指定的挂载路径中。在代码中,挂载路径相当于本地路径。