开发人员按需将代码发布上线后,还需要及时处理数据、程序、调度、监控告警等的异常事件,保障数据产出时效,程序高效运行,生产稳定性。

数据开发人员主要需要处理以下线上事项。

  • 程序异常处理、性能优化
  • 调度异常处理
  • 数据质量监控规则异常分析、规则优化
  • 数据异常的核查
运维阶段的流程包括影响分析、方案制定与实施、实施验证。

  1. 影响分析:通过监控规则捕获、自主发现或其他方法获取关于数据产出时效性、数据准确性等指标的异常情况。异常情况包括但不限于:
    • 任务运行失败
    • 任务运行时间过长
    • 产出表中出现脏数据
  2. 方案制定与实施:根据影响分析的结果判断是否对线上数据应用有影响,如有则需及时将告警信息推送至任务责任人,并判断原因、确定可行性解决方案。
    1. 开发人员提交线上变更申请。
    2. 审批人员(建议安排为对业务逻辑、代码较为熟悉的人员)审批允许发布变更。
    3. 运维人员按照步骤实施发布,完成后通知数据开发人员进行验证。如果验证失败,则运维人员按修正脚本的回滚方法回滚,并将结果反馈给开发人员。
  3. 实施验证:开发人员在收到运维人员实施成功的通知后,开始验证变更结果是否符合预期,如符合预期,则开发人员需要将此次变更的原因、内容及生效时间通知直接下游及关联方的人员。如不通过,则反馈运维人员执行回滚。