您可以通过客户端工具查看任务日志、镜像、代码源及数据源。本文介绍查询相关的命令详情,包括调用格式、参数解释及使用示例。

背景信息

查看任务日志(logs)

  • 功能

    查看一个训练任务的日志详情。

  • 格式
    dlc logs <yourJobId> <yourPodId> [--max_events_num <yourMaxNum>] [--start_time <yourStartTime>] [--end_time <yourStartTime>]
  • 参数
    参数 是否必选 描述 类型
    <yourJobId> 待查看训练任务的ID。 STRING
    <yourPodId> 待查看日志的Pod ID。在分布式任务场景下,存在多个Pod。 STRING
    max_events_num <yourMaxNum> 返回的日志最大行数,默认值为2000。 INT
    start_time <yourStartTime 日志查询的起始时间,默认值为7天前。例如,start_time 2020-11-08T16:00:00Z STRING
    end_time <yourStartTime> 日志查询的截止时间,默认值为当前时间。例如,end_time 2020-11-08T17:00:00Z STRING
  • 示例
    针对分布式训练任务的0号Worker节点,获取十行日志。
    dlc logs dlc-20210411xxxxxx-xxxxxxxxxxxxx dlc-20210411xxxxxx-xxxxxxxxxxxxx-worker-0 --max_events_num 10
    系统返回如下类似结果。
    WARN: ./requirements.txt not found, skip installing requirements.
    ================================================
    |  PAI Tensorflow powered by Aliyun PAI Team.  |
    ================================================
    Network is under initialization...
    Network successfully initialized.
    [2021-04-16 12:27:56.368026] [INFO] [7#7] [tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA
    [2021-04-16 12:27:56.375586] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:80] ====================CPU Architecture=====================
    [2021-04-16 12:27:56.375600] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:84] Disable AVX512.
    [2021-04-16 12:27:56.375605] [INFO] [7#7] [tensorflow/core/distributed_runtime/master.cc:87] CPU Vendor ID: GenuineIntel

查看仓库中的镜像(get images)

  • 功能

    从PAI-DLC的镜像仓库中获取可用的镜像信息,您可以在提交训练任务时使用这些镜像。

  • 格式
    dlc get images [--order=<yourOrder>] [--framework=<yourFramework>] [--device=<yourDeviceType>] [--provider=<yourProvider>]
  • 参数
    参数 是否必选 描述 类型
    order=<yourOrder> 排序顺序,取值包括:
    • desc:默认值,表示降序。
    • asc:表示升序。
    STRING
    framework=<yourFramework> 镜像包含的框架类型,默认值为空,表示任意类型。该参数取值包括:
    • PyTorchJob
    • TFJob
    STRING
    device=<yourDeviceType> 支持的设备类型,默认值为空,表示所有类型。该参数取值包括:
    • cpu
    • gpu
    STRING
    provider=<yourProvider> 镜像提供源,默认值为空,表示所有来源。该参数取值包括:
    • Community:社区镜像。
    • PAI:PAI提供的官方镜像。
    STRING
  • 示例
    从仓库中获取社区提供的Pytorch GPU镜像,命令如下。
    dlc get images --framework=pytorch --device=gpu --provider=Community
    系统返回如下类似结果。
    +--------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------+---------------+-------------+-----------+
    |                                          ImageUrl                                          |                                          ImageUrlVpc                                           | ImageProvider | Accelerator | Framework |
    +--------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------+---------------+-------------+-----------+
    | registry.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.6.0-gpu-py37-cu101-ubuntu18.04 | registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.6.0-gpu-py37-cu101-ubuntu18.04 | Community     | gpu         | pytorch   |
    | registry.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 | registry-vpc.cn-beijing.aliyuncs.com/pai-dlc/pytorch-training:1.7.1-gpu-py37-cu110-ubuntu18.04 | Community     | gpu         | pytorch   |
    +--------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------+---------------+-------------+-----------+
    提交任务时,您可以从上述返回结果的ImageUrlImageUrlVpc字段,获取节点的镜像信息。

查看代码源(get code_source)

  • 功能

    获取代码源的信息。如果没有指定代码源的ID,则系统返回所有的代码源。如果指定了代码源,则返回这个特定代码源的信息。

  • 格式
    dlc get code_source [yourCodeSourceId] [--sort_by=<yourSortField>] [--order=<yourOrder>] [--display_name=<yourCodeSourceName>] [--page_num=<yourPageNum>] [--page_size=<yourPageSize>]
  • 参数
    参数 是否必选 描述 类型
    yourCodeSourceId 代码源的ID,默认值为空。 STRING
    sort_by=<yourSortField> 用于排序的字段,默认值为GmtCreateTime STRING
    order=<yourOrder> 排序顺序。取值包括:
    • desc:默认值,表示降序。
    • asc:表示升序。
    STRING
    display_name=<yourCodeSourceName> 代码源的显示名称,支持模糊匹配,默认值为空。 STRING
    page_num=<yourPageNum> 取第几页的数据,默认值为1。 INT
    page_size=<yourPageSize> 分页大小,默认值为10。 INT
  • 示例
    • 获取所有的代码源信息
      dlc get code_source
      系统返回如下类似结果。
      +----------------------------------+-------------+-------------+---------------------------------------------+------------+------------+------------------+---------------------+--------------------+----------------------+----------------------+
      |           CodeSourceId           | DisplayName | Description |                  CodeRepo                   | CodeBranch | CodeCommit | CodeRepoUserName | CodeRepoAccessToken |       UserId       |    GmtCreateTime     |    GmtModifyTime     |
      +----------------------------------+-------------+-------------+---------------------------------------------+------------+------------+------------------+---------------------+--------------------+----------------------+----------------------+
      | code-20210411205952-3lm541ppXXXX | hhh         |             | http://github.com/                          | master     |            |                  |                     | 232113015457841879 | 2021-04-11T12:59:53Z | 2021-04-11T12:59:53Z |
      | code-20210410224342-z9fnegctXXXX | new_cs      | new test    | https://github.com                          | master     |            |                  |                     | 232113015457841879 | 2021-04-10T14:43:43Z | 2021-04-10T14:43:43Z |
      | code-20210410224339-t0pp0drcXXXX | new_cs      | new test    | http://github.com                           | master     |            |                  |                     | 232113015457841879 | 2021-04-10T14:43:39Z | 2021-04-10T14:43:39Z |
      | code-20210410224329-fie1f5o8XXXX | new_cs      | new test    | https://github.com/NVIDIA/FasterTransformer | master     |            |                  |                     | 232113015457841879 | 2021-04-10T14:43:29Z | 2021-04-10T14:43:29Z |
      +----------------------------------+-------------+-------------+---------------------------------------------+------------+------------+------------------+---------------------+--------------------+----------------------+----------------------+
      |                                                                                                                                                                                                             Total         |          4           |
      +----------------------------------+-------------+-------------+---------------------------------------------+------------+------------+------------------+---------------------+--------------------+----------------------+----------------------+
    • 获取特定的代码源信息
      dlc get code_source code-20210410224329-fie1f5o8XXXX
      系统返回如下类似结果。
      +---------------------+---------------------------------------------+
      |        FIELD        |                    VALUE                    |
      +---------------------+---------------------------------------------+
      | CodeSourceId        | code-20210410224329-fie1f5o8XXXX            |
      | DisplayName         | new_cs                                      |
      | Description         | new test                                    |
      | CodeRepo            | https://github.com/NVIDIA/FasterTransformer |
      | CodeBranch          | master                                      |
      | CodeCommit          |                                             |
      | CodeRepoUserName    |                                             |
      | CodeRepoAccessToken |                                             |
      | MountPath           | /root/code/                                 |
      | UserId              | 232113015457841879                          |
      | GmtCreateTime       | 2021-04-10T14:43:29Z                        |
      | GmtModifyTime       | 2021-04-10T14:43:29Z                        |
      +---------------------+---------------------------------------------+

查看数据源(get data_source)

  • 功能

    获取数据源的信息。如果没有指定数据源的ID,则系统返回所有的数据源。如果指定了数据源,则返回这个特定数据源的信息。

  • 格式
    dlc get data_source [yourDataSourceId] [--sort_by=<yourSortField>] [--order=<yourOrder>] [--display_name=<yourCodeSourceName>] [--page_num=<yourPageNum>] [--page_size=<yourPageSize>] [--data_source_type=<yourCodeSourceType>]
  • 参数
    参数 是否必选 描述 类型
    yourDataSourceId 数据源的ID,默认值为空。 STRING
    sort_by=<yourSortField> 用于排序的字段,默认值为GmtCreateTime STRING
    order=<yourOrder> 排序顺序。取值包括:
    • desc:默认值,表示降序。
    • asc:表示升序。
    STRING
    display_name=<yourCodeSourceName> 代码源的显示名称,支持模糊匹配,默认值为空。 STRING
    page_num=<yourPageNum> 取第几页的数据,默认值为1。 INT
    page_size=<yourPageSize> 分页大小,默认值为10。 INT
    data_source_type=<yourCodeSourceType> 数据源的类型,默认值为nas。当前仅支持NAS。 STRING
  • 示例
    • 获取所有的数据源信息
      dlc get data_source
      系统返回如下类似结果。
      +----------------+----------------------------------+------------------+--------------------------------+--------------+--------------------+----------------------+----------------------+
      | DataSourceType |           DataSourceId           |   DisplayName    |          Description           | FileSystemId |       UserId       |    GmtCreateTime     |    GmtModifyTime     |
      +----------------+----------------------------------+------------------+--------------------------------+--------------+--------------------+----------------------+----------------------+
      | nas            | data-20210410224621-gml01wz0XXXX | new_test_1       | test once                      | 16a0b4b17a   | 232113015457841879 | 2021-04-10T14:46:21Z | 2021-04-10T14:46:21Z |
      | nas            | data-20210323171833-w2hslsl1XXXX | PyTorch-Face-Nas | Nas for PyTorch Face Detection | 16a0b4b17a   | 232113015457841879 | 2021-03-23T09:18:34Z | 2021-03-23T09:18:34Z |
      | nas            | data-20210323171710-ap5jirtcXXXX | PyTorch-Face-Nas | Nas for PyTorch Face Detection | 16a0b4b17a   | 232113015457841879 | 2021-03-23T09:17:11Z | 2021-03-23T09:17:11Z |
      +----------------+----------------------------------+------------------+--------------------------------+--------------+--------------------+----------------------+----------------------+
      |                                                                                                                                                    Total         |          3           |
      +----------------+----------------------------------+------------------+--------------------------------+--------------+--------------------+----------------------+----------------------+
    • 获取特定的数据源信息
      dlc get data_source data-20210410224621-gml01wz0XXXX
      系统返回如下类似结果。
      +----------------+----------------------------------+
      |     FIELD      |              VALUE               |
      +----------------+----------------------------------+
      | DataSourceType | nas                              |
      | DataSourceId   | data-20210410224621-gml01wz0XXXX |
      | DisplayName    | new_test_1                       |
      | Description    | test once                        |
      | FileSystemId   | 16a0b4b17a                       |
      | MountPath      | /root/data/                      |
      | UserId         | 232113015457841879               |
      | GmtCreateTime  | 2021-04-10T14:46:21Z             |
      | GmtModifyTime  | 2021-04-10T14:46:21Z             |
      +----------------+----------------------------------+