训练任务创建后,会以应用容器的方式运行。可以在容器服务管理控制台查看应用运行详情,进入容器进行管理操作等。

操作步骤

  1. 登录 容器服务管理控制台
  2. 在 Swarm 菜单下,单击左侧导航栏中的 应用
  3. 在应用列表页面,找到前面创建的应用 test-caffe。


  4. 单击应用名,查看更多任务执行的状况。可以看到上述任务有一个容器 test-caffe_worker1 在运行。

    可以查看该容器的运行的节点位置,查看资源监控和日志信息。也可以通过简单的 web 远程终端,直接进入该容器内部。效果和通过SSH进入容器一样。



  5. 实时查看训练日志。


  6. 通过简单的 web 远程终端进入容器内部操作。


    根据训练任务的复杂程度,在等待一段时间后,训练结束。任务容器会自动退出,释放所占用的 GPU 等资源。

    至此,通过自定义镜像的方式,用户可以使用容器服务简单、快速地运行基于 Caffe 等任何深度学习框架的模型训练。训练任务调度、计算资源分配、GPU 使用率优化、数据存储的集成、集群管理,监控和运维等工作都不需要用户额外的投入。