项目空间运维与监控

本文主要介绍Databricks数据洞察中项目空间具有的运维与监控能力。

背景信息

项目空间的运维能力主要辅助作业开发和工作流生产,前者提供作业开发过程中的日志监控、版本监控和操作审计监控;后者兼容前者的功能,更提供针对调度场景下的监控与告警。

在项目维度,设置了运维中心,协助用户监控作业状态,运维管理。其中包含作业总览、作业运行记录、工作流记录、流式作业监控和审计日志监控等功能,全方位提升用户运维效率。运维中心示例图

作业运维

这里我们模拟一个错误作业作为示例,给出项目空间在对该作业运维的操作。

日志监控

当我们在项目空间中运行测试作业时,若运行过程中作业报错或作业失败,在下方的调试框内会给出相应的执行日志以及错误判断信息,在运行记录当中可以查看过往的提交信息,以供用户排查作业问题,如下图:

初步报错信息

日志监控图运行记录查看 运行记录列表图

点击运行记录下的详情查看,如下图可以看到完整的作业基本信息和提交日志,这部分的信息内容更加全面。

作业实例信息1

对于长时间段的日志查询,可以在提交日志中自定义查询具体时间,方便排查具体时间段暴露的问题,如下图:

提交日志监控

操作审计与版本控制

这部分功能可以辅助用户进行运维决策,当作业需要回滚,可以通过创建快照和版本控制结合使用,查询之前的作业版本,有效恢复生产业务,步骤如下图:

说明

创建快照操作应首先保存当前作业的内容,确保为最新更新内容。

回滚操作

对于需要复盘操作记录时,可以通过审计日志功能,查询具体操作记录,如下图:

审计日志

工作流运维

工作流的运维主要围绕作业信息展示和调度告警展开,其中包含作业流程监控,作业图形化展示、变更审计日志等功能。

实例信息展示

当需要监控工作流生产时,可以通过运维中心的工作流实例来监控,可以看到工作流的运行阶段与作业的运行状态,当出现问题作业时,可以通过点击详情,查询的日志报错信息,后续和上文中日志监控的内容类似。操作界面如下图:实例信息展示

调度告警

调度作业时,需要配置具体的调度属性和告警设置,具体操作如下图:

工作流配置报警配置

对于设置具体的告警人,请参考项目空间告警人设置。当符合告警条件时,系统会根据设置的反馈方式,通知到具体报警人,高效处理运维,反馈示例如下图:

报警反馈图