开发人员根据需求将代码发布上线后,还需要及时处理数据、程序、调度、监控告警等的异常事件,保障数据产出时效、程序高效运行和生产稳定性。

背景信息

数据开发人员主要需要处理以下事项:
  • 程序异常处理、性能优化。
  • 调度异常处理。
  • 数据质量监控规则异常分析、规则优化。
  • 数据异常的核查。
运维阶段的流程包括分析影响、制定与实施方案和验证实施方案。流程

操作步骤

  1. 分析影响。
    运维人员或开发人员通过监控规则捕获、自主发现或其它方法获取关于数据产出时效性、数据准确性等指标的异常情况,并进行影响分析。异常情况包括但不限于:
    • 任务运行失败。
    • 任务运行时间过长。
    • 产出表中出现脏数据。
    开发人员根据影响分析的结果判断是否对线上的数据应用有影响。
    • 如果有影响,需要开发人员及时推送告警信息至任务责任人,并判断原因、确定可行性解决方案。
    • 如果无影响,则无需处理。
  2. 制定与实施方案。
    1. 开发人员提交线上变更申请。
    2. 审批人员(建议安排为对业务逻辑、代码较为熟悉的人员)审批允许发布变更。
    3. 运维人员按照步骤实施发布,完成后通知数据开发人员进行验证。如果验证失败,则运维人员按照修改脚本的回滚方法进行回滚,并反馈结果至开发人员。
  3. 验证实施方案。
    开发人员在收到运维人员实施成功的通知后,开始验证变更结果是否符合预期。
    • 如果符合预期,则开发人员需要将此次变更的原因、内容及生效时间通知直接下游及关联方的人员。
    • 如果未符合预期,则开发人员需要反馈给运维人员执行回滚。