异常统计为您展示全局或已选项目下运行异常任务的统计信息,包括运行出错和运行总时间过长两个视角,便于您及时获取任务运行的状况,以判断资源的消耗及影响,从而作出预算准备、资源扩容或规格升级的决策。本文为您介绍运维中心的异常统计。
统计说明
异常统计功能统计的数据为生产环境的实例数据。
异常统计入口
在Dataphin首页,单击顶部菜单栏的研发。默认进入数据开发页面。
按照以下操作指引,进入异常统计页面。
依次单击运维->异常统计。
异常统计页面介绍
异常统计页面为您展示系统内离线实例和实时实例的异常数据。
编号 | 描述 |
①实例页签 | 切换离线实例或实时实例页签,查看离线实例和实时实例运行异常的排行统计及报警排行。 |
②全局视角和项目视角 | 支持通过全局和项目两种视角,查看异常统计信息。系统默认选中项目视角,为您展示具体某个项目下的运行概况,您可以选择查看不同项目的统计信息。如果您需要查看租户粒度下的全局异常数据统计概况,则单击图标进行切换查看。
|
③异常数据排行 | 展示离线实例和实时实例异常数据的排行:
|
④报警排行 | 展示离线实例和实时实例的报警排行:
|
如果您没有查看全局范围数据的权限,需要申请其功能权限,详情请参见配置和转交功能权限。
离线实例异常统计
离线实例异常统计包括运行状态统计和运行时长统计排行,同时系统为您呈现运行超时异常报警排行。
离线实例排行
编号
描述
①运行状态与时长统计
您可以选择查看运行状态和运行时长统计数据:
运行状态统计。
运行状态统计任务运行的失败次数和失败次数占比。对于运行失败次数或失败占比过高的任务节点,建议您检查对应任务及其上下游依赖关系配置,避免影响下游数据产出。
运行时长统计。
按平均运行时长统计任务运行时长。对于运行时长过长的任务节点,建议您查看任务详情及对应资源组配置,以决定是否需要对该任务进行优化。
②离线实例异常排行榜
支持查看失败次数和失败次数占比的排行榜,帮助您及时运行异常任务。
单击查看注释,查看运行失败次数、运行失败次数占比等指标的解释。
单击下载CSV,下载更多统计数据,以便进一步分析数据异常原因。
报警排行
在报警排行区域,可以查看运行超时报警排行。排名靠前的任务,需要评估监控配置是否合理(例如,是否需要修改设置的超时阈值)、评估任务配置是否需要优化。同时,您可以执行以下操作:
单击告警中心,查看告警详情。
单击操作列下的图标,进入对应的任务模块,查看生产任务。
单击操作列下的图标,进入监控报警模块,查看监控配置。
实时实例异常统计
实时实例异常统计包括失败次数统计和延时时长统计排行,同时系统为您呈现业务延时过高和TPS超过范围报警排行。
实时实例排行
编号
描述
①状态次数和延时时长统计
您可以选择查看失败次数状态和延时时长统计数据:
失败次数统计。
对于失败次数过高的任务节点,建议您检查对应任务配置,避免影响数据正常产出。
延时时长统计。
对于延时过长的任务节点,建议您检查对应任务配置,避免数据延时产出。
②实例异常排行榜
为您展示失败次数、失败次数占比、平均时长统计的排行榜,帮助您及时运行异常任务。
单击查看注释,查看运行失败次数和延时时长统计等指标的解释。
单击下载CSV,下载更多统计数据,以便进一步分析数据异常原因。
报警排行
在实时实例页签的报警排行区域,可以查看业务延时过高、TPS超过范围、失败频率超过设置和数据滞留超过设置报警排行。排名靠前的任务,需要评估监控配置是否合理(例如是否需要修改设置的超时阈值)、评估任务配置是否需要优化。同时,您可以执行以下操作:
单击告警中心,查看告警详情。
单击操作列下的图标,进入对应的任务模块,查看生产任务。
单击操作列下的图标,进入监控报警模块,查看监控配置。