本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
PAI-TF日志分为工作流运行状态日志和Logview日志,其中运行状态日志主要展示分布式作业的服务器运行情况,而Logview日志则包含工作流的Debug信息,且蕴含更多的工作流信息。如果您的工作流在运行过程中报错,可以通过本文介绍的日志查看方法定位并分析具体的报错信息。
警告
公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见创建训练任务。
无论以何种方式提交PAI-TF任务,都会生成如下图所示的日志。
序号 | 描述 |
① | Logview日志,可以在浏览器中打开。 |
② | 运行状态日志。 |
运行状态日志
运行状态日志主要展示分布式作业的服务器运行情况。通常以参数1/参数2/参数3/格式展示该日志,其中:
参数1:表示正在计算的节点数。
参数2:表示已经计算结束的节点数。
参数3:表示总的计划节点数。
工作流进度100%表示工作流已经结束。
Logview日志
Logview日志包含工作流的Debug信息,您可以通过如下方式查看相关日志:
在浏览器中打开上图①中的链接,进入如下页面。
如果工作流报错需查看报错日志,或需要查看工作流运行过程中代码Print信息,则双击实例。
在Worker运行页面,选择需要查看的Task实例及对应的Worker实例。
如果需要查看代码运行过程中Print函数打印的信息,则单击Stdout列下的
图标。
如果需要查看产品报错信息Debug,则单击StdErr列下的
图标。
该文章对您有帮助吗?