异常检测

及时发现数据库的异常问题是数据库日常运维的重点。数据库自治服务DAS提供异常检测功能,基于机器学习和细粒度的监控数据,无需手动开启,自动实现7x24小时的异常检测。相比基于规则或阈值的告警方式,能够更及时地发现数据库异常变化。

前提条件

  • 目标数据库实例为:

    数据库

    地域

    • RDS MySQL

    • MyBase MySQL

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华南2(河源)、华南3(广州)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、华东5 (南京-本地地域-关停中)华东6(福州-本地地域-关停中)、西南1(成都)、郑州、中国(香港)、日本(东京)、韩国(首尔)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、菲律宾(马尼拉)、泰国(曼谷)、阿联酋(迪拜)、沙特(利雅得)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)和英国(伦敦)

    • 金融云

      华东1(杭州)金融云、华东2(上海)金融云、华南1(深圳)金融云和华北2(北京) 金融云(邀测)

    • 政务云

      华北2(北京)阿里政务云1

    RDS PostgreSQL

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华南2(河源)、华南3(广州)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、西南1(成都)、中国(香港)、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、菲律宾(马尼拉)、阿联酋(迪拜)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)和英国(伦敦)

    • 金融云

      华东1(杭州)金融云、华东2(上海)金融云和华南1(深圳)金融云

    • 政务云

      华北2(北京)阿里政务云1

    RDS SQL Server

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华南2(河源)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、西南1(成都)、中国(香港)、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、阿联酋(迪拜)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)和英国(伦敦)

    • 金融云

      华东1(杭州)金融云、华东2(上海)金融云和华南1(深圳)金融云

    • 政务云

      华北2(北京)阿里政务云1

    PolarDB MySQL标准版、企业集群版

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华南2(河源)、华南3(广州)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华北6(乌兰察布)、西南1(成都)、中国(香港)、日本(东京)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、菲律宾(马尼拉)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)和英国(伦敦)

    • 金融云

      华东1(杭州)金融云、华东2(上海)金融云、华南1(深圳)金融云和华北2(北京) 金融云(邀测)

    • 政务云

      华北2(北京)阿里政务云1

    • 云数据库 Tair(兼容 Redis)

    • MyBase Redis

    • 开源版

    • Tair(Redis企业版)内存型

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华南2(河源)、华南3(广州)、华北1(青岛)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、西南1(成都)、中国(香港)、日本(东京)、韩国(首尔)、新加坡、马来西亚(吉隆坡)、印度尼西亚(雅加达)、菲律宾(马尼拉)、泰国(曼谷)、阿联酋(迪拜)、沙特(利雅得)、德国(法兰克福)、美国(硅谷)、美国(弗吉尼亚)和英国(伦敦)

    • 金融云

      华东1(杭州)金融云、华东2(上海)金融云、华南1(深圳)金融云和华北2(北京) 金融云(邀测)

    • 政务云

      华北2(北京)阿里政务云1

    Tair(Redis企业版)持久内存型、磁盘型

    • 公共云

      华东1(杭州)、华东2(上海)、华南1(深圳)、华北2(北京)、华北3(张家口)、中国(香港)、新加坡、德国(法兰克福)和美国(弗吉尼亚)

    • 政务云

      华北2(北京)阿里政务云1

  • 目标数据库实例已接入DAS,并且接入状态显示为接入正常

    说明

    接入数据库实例的操作请参见接入阿里云数据库实例

功能介绍

基于机器学习和细粒度的监控数据,无需手动开启,自动实现7x24小时的异常检测。相比基于规则或阈值的告警方式,能更及时地发现数据库异常变化。

对比项

传统方式

DAS异常检测

方式

基于规则、阈值。

基于AI。

检测项

主要基于监控指标。

监控指标、SQL、日志、锁、运维事件等。

实时性

至少5分钟,甚至到天。

准实时。

检测原理

故障驱动。

异常驱动。

周期性识别

无。

自动识别。

适应性

无法自适应业务特征。

自适应业务特征。

预测能力

无。

具备预测能力。

查看异常检测结果

DAS的自治中心,可以直接查看选定时间范围内检测到的异常事件。

  1. 登录DAS控制台

  2. 在左侧导航栏中,单击智能运维中心 > 实例监控

  3. 找到目标实例,单击实例ID,进入目标实例详情页。

  4. 在左侧导航栏中,单击自治中心

  5. 选择时间范围,查看指定时间范围内的异常事件。

开启事件告警

开启事件告警功能后,如果检测到异常事件,DAS将会根据您设置的方式进行通知(例如手机短信),帮助您及时发现数据库异常变化。详情请参见配置告警

说明

配置告警规则时,将告警类型设置为自治事件事件类型设置为监控指标异常,即可对检测到的异常事件进行告警。

常见问题

  • 监控指标时序异常检测(时序异常检测)事件的异常快照中,异常指标分析的相关指标变化倍数是如何计算得出的?

    指标变化倍数=实际指标值/预测指标值。DAS会使用数据库实例过去一段时间内小时级别的数据预测数据库实例当前时刻的指标值,以预测指标值作为基线与当前实际指标值进行对比,从而得出指标变化倍数。异常指标

  • 为什么新建的实例或节点流量平稳,但出现了较多的监控指标时序异常检测(时序异常检测)事件?

    DAS的异常检测功能是先基于实例的历史数据建立预测模型,然后利用该模型进行异常检测。对于新创建的实例或节点,其性能数据水位相对较低,因此基于此数据所建立的预测模型的数据水位也会相应较低。在业务操作发生后,可能会导致一段时间内指标与预测模型数据差异较大(出现伪突增),从而引发较为密集的异常检测事件。

    说明

    经过一段时间的数据积累后,DAS会自动重新建立更为准确的预测模型,伪突增导致的监控指标时序异常检测(时序异常检测)事件也会消失。

  • 为什么实例性能指标在某几秒有明显的异常,但未触发监控指标时序异常检测(时序异常检测)事件?

    DAS的异常检测功能是使用分钟级的平均数据进行检测,某几秒的异常可能会因对该数据影响较小而被平滑,从而导致该异常无法被检测到(不会触发监控指标时序异常检测(时序异常检测)事件)。

相关文档

您可以利用DAS的自治功能,在数据库出现异常时进行自动处理。