全部产品
大数据开发套件

调度运维常见问题

更新时间:2017-09-11 19:57:14   分享:   

Q:工作流节点出错怎么看日志?

A:进入“运维中心-任务运维-运维”,过滤条件:输入任务名称、业务日期选“接到的节点实例出错提醒的业务日期”,查询,结果列表选中任务实例,右边 DAG 图里,鼠标对实例右键点击‘查看节点运行日志’。


Q:刚提交好了一个工作流,设置为周期调度,定时时间已经到了,怎么还不见跑起来?

A:当天新增成功的工作流/节点,且在当天 23:30 前提交/发布成功,需要第二天才会自动调度。当天可以通过手动测试或补数据调度 。


Q:创建了周期调度工作流,且昨天就 23:30 前就发布成功了,今天运维中心里却是未运行状态?

A:以下几种原因都会导致工作流未运行,注意逐一排查:

  1. 工作流属性-调度属性-启动调度选项没有勾上 。
  2. 工作流虽然勾选‘启动调度’但是今天的日期不在设置的‘生效时间’范围内 。
  3. 工作流设置的定时调度时间还没到 。
  4. 工作流设置有上游依赖,上游工作流未全部运行成功 。
  5. 工作流设置有跨周期依赖,上一周期工作流未运行成功。

说明 : 节点任务排查方式与工作流相同。


Q:工作流前段时间每天都正常调度,今天突然没有了,工作流实例都没生成 。

A:请注意查看工作流是否已经删除,或者工作流属性的生效时间已经过了,若生效时间已过可以修改 。

Q:数据同步任务等待资源时间过长,一直等待资源?

A:如果任务使用自定义资源组,那么:

  1. ECS 上已经跑了太多的任务,导致任务排队;
  2. ECS 节点无法正常工作,可以到 组织管理-》调度资源 -》 资源服务器 看下 ECS 资源是否正常,也可以考虑重启一下 ECS 上的 agent,命令是:su - admin/home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart

如果任务使用默认资源组,那么就是资源组并发已满,需要等待或者可以考虑使用自定义资源组 。

Q : 数据同步任务报错:获取作业配置信息失败:/home/admin/shell_datax/T3_0028378354 - File ‘/home/admin/shell_datax/T3_0028378354’ does not exist

A:这个错误一般是通过自定义资源组执行 shell 调 datax 的任务,可以在自定义机器上 su - admin切换到 admin 账号后,执行下 datax 任务调试下,常见原因:

  • 权限问题(datax 的任务是用 admin 账号执行的,如果用 root 配置了环境,可能有一些操作 admin 账号会没权限)。
  • datax 配置的时候就有问题,无法正常执行 。

如果还是无法解决请提交工单寻求帮助!

Q:整个工作流中间的一个节点出错,能否跳过先执行其他的节点?

A:如果节点没运行成功,下游节点是不能正常运行。若节点之间业务逻辑没有依赖关系,则应该取消其直接的调度依赖;若仅仅是本次执行可以不依赖出错节点的执行结果,则可以对出错的节点实例操作右键“置成功并恢复调度”这样可以先跳过出错节点调度下游节点 。

Q : 为什么按照流程部署完毕了 ECS,但界面还是显示“终止”?

A:

  • 如果是经典网络,请确认您注册使用的机器名称是真实的机器名,请使用命令到ecs上执行:hostname,返回的结果即为机器名称;不支持自定义名称;
  • 如果是专有网络,请确认使用的是界面提供的命令查询到的 uuid;
  • 请确认是否有修改过 ecs 的主机名称,注意这里不是指实例名 。如果修改过名称,请到 ecs 上查询 /etc/hosts 中是否有绑定正确;
  • 如果注册信息都是正确的,而且也是按照“执行初始化”的命令复制粘贴部署的,但还是“终止”,请将 ecs 上的文件 /home/admin/alisatasknode/logs/alisatasknode.log 这份文件转为 txt 格式,提工单反馈给我们;

Q:配置服务器的时候,在操作“执行初始化”的时候失败?

A: 目前只能支持 centos5、centos6、centos7 以及 aliyunos 。如果您的 ecs 不是上述的 os,系统暂时不支持,会出现上述操作 。

Q:为什么添加了调度资源,也安装 ECS 成功了,但是 shell 任务还是执行失败,报错“exec target was null”?

A: 执行 shell 任务,需要将任务的运行资源组修改为自定义资源组;

如何新建自定义资源组请前往《项目管理》文档中查看。如果已经拥有自定义资源组,请前往运维中心修改任务执行的资源组 。

Q:为什么我注册了 ECS 服务器,经常会出现自动的“暂停服务”的状态?

A: 在注册 ECS 的时候,部署了一个 agent,agent 会有一个监听动作,发现当前 ECS 的内存、cpu、load 较高的时候,不适合继续接收新的任务执行,会主动将 agent 服务暂停。待机器指标下降后会自动置为“正常”状态;

Q:为什么安装 ECS 的时候,部署完成了,但是启动失败?

A: 请检查您的 ECS 系统是否有 jdk1.6 以上的环境;如果您是 centos5.x 的操作系统需要您自己安装 jdk 的版本以及 python2.6.5 以上的版本;

Q:如何修改自定义 ECS 的任务并发数?

A: 在配置服务器的界面中,有个最大槽位数:说明:槽位数是定义一台机器并发任务的一个量化单位,一个 shell 任务或者 MaxCompute sql 任务占用一个槽位,一个同步任务可能会占用 2-20 个不等的槽位。可以修改该值增加您 ECS 并发的大小,目前默认是 40 个槽位;

Q:为什么我的调度资源偶尔会出现“暂停服务”的状态?

A: 由于在服务器上安装的 agent 会自动监控当前 ECS 的 cpu、mem、load 的使用率,监控的频率是每分钟监控 3 次,当发现使用率超过 80% 就会将 agent 的服务挂起,也就是在界面看到的“暂停服务”;

注意:该功能并不会影响正在执行的任务,但是不会在接收新的任务,待负载等指标下降后,会自动将服务器状态置为“正常”,服务器恢复正常工作 。

Q:为什么跑在自定义调度资源上的任务执行成功/失败,但是日志无法获取?

A:

  • 如果服务器是经典网络的,那么请确认内网入的 8000 端口是否开通了;
  • 在调度资源中检查当前服务器的状态,是否“正常”;
  • 如果上两步骤都是正常的,那么尝试重启下 agent 的服务,重启命令:sudo su - admin /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart

Q : 为什么同步任务执行成功了,但是日志中却有500错误的返回?

A: 任务成功了,只是日志读取失败了,是因为 ECS 服务 agent 异常,需要重启下 agent,重启命令:sudo su - admin /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart重启完毕后,可以重跑下同步任务,在检查日志是否完整;

Q : 为什么任务经常处于“等待资源”?

A:

  1. 如果任务是跑在默认资源组上: 我们默认给每个租户50个槽位的并发数,可能您当前的任务已经占用超过了50个槽位,所以正在等待资源。
  2. 如果任务是跑在自定义资源组上:那么可以到调度资源管理界面选择对应调度资源,点击服务器管理,查看服务调度资源的服务器状态。
  • 停止状态:请登录 ECS 执行命令sudo su - admin /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart恢复 agent 服务;
  • 暂停服务状态:那么是很可能因为 ECS 上跑的任务占用了较高的 cpu 或者内存,导致了挂起 。建议如果任务并发量过高,建议将 ECS 的内存 cpu 扩容下;
  • 正常状态:需要检查下当前是否任务数已经达到了 ECS 服务器的并发数上限。可以到运维中心中检查,当前调度资源下有哪些正在执行的任务 。

Q : 任务没有运行日志?

A: 无法获取运行日志(一般出现在使用自定义调度资源的情况下),下面就说一下两种处理方案。

  1. 自定义调度资源的机器在初始化时没有对我们读取日志的机器开放白名单以及8000端口,详细操作请参考新增调度资源,详细请参考“开通 8000 端口,以便读取日志”。
  2. agent是我们去连接您机器的服务,读取日志失败可能是agent服务挂了,可以使用如下命令重启:”sudo su - admin /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart”

我们的机器只会拉取一次日志数据,如果第一次拉取日志的时候失败了,那么这个任务的日志就无法获取了,只能再次运行该任务后,才会重新拉取一次。

本文导读目录
本文导读目录
以上内容是否对您有帮助?