准备工作
在运行模型训练任务之前,请确认以下工作已经完成:
约定
为了方便您的应用代码读取训练数据,输出训练日志,训练卷中的数据会存放在 /input 目录,用户代码需要从该目录中读取数据。
视频教程
操作步骤
- 登录 容器服务管理控制台。
- 在 Swarm 菜单下,单击左侧导航栏中的 。
- 在 模型开发 框中单击 创建。
- 设置创建 Jupyter 环境的基本信息。
- 集群:所创建模型开发应用将要部署到的集群。本示例中为 EGS-cluster。
- 应用名:所创建应用的名称。名称可以包含 1~64 个字符,包括数字、英文字符和连字符(-),且不能以-开头。
- 训练框架:所支持的训练框架包括 TensorFlow,Keras 以及不同 Python 版本。
- GPU数量:所使用的 GPU 数量,如果为 0 表示不使用 GPU。
- 数据卷名:指定为用于存储训练数据的数据来源,可以选择对象存储服务在该集群中创建的数据卷的名称;也可以选择本地目录,但要求填写绝对路径;或者选择 不使用数据卷。本示例中使用名为 tfoss 的数据卷。
- Jupyter密码:登录 Jupyter 所用的密码。
- 训练监控:是否使用 TensorBoard 监控训练状态;一旦选择监控,请指定训练日志的路径,并保证与训练代码中日志输出的路径一致。
- 启用SSH登录:选择是否启用 SSH 方法访问服务。勾选此选项后,您需要填写您的 SSH密码。
说明 有关如何通过 SSH 方法访问服务,参见 通过 SSH 访问 Jupyter 服务。
- 设置完毕后,单击 确定。
- 在应用列表页面,选择创建的应用, 单击应用名称进去。
- 单击 路由列表,可以看到两个链接,分别是以 jupyter 和 tensorboard 开头的链接。
- 单击 jupyter 开头的链接,并且输入 jupyter 的密码,就能进入 jupyter 环境。
- 单击 tensorboard 开头的链接,查看训练结果。
- 分布式存储中的训练数据都存储在本地的 /input 文件夹下,您可以从 /input 下读取数据。