本文主要介绍数据库自治服务DAS产品的各个功能的简介。

功能简介

DAS主要包含如下功能:
  • SQL诊断和优化
  • 慢SQL分析
  • 空间分析
  • 性能趋势
  • 会话管理
  • 全量SQL分析
  • 诊断报告
  • 7X24小时异常检测
  • 自动SQL限流
  • 自动SQL优化
  • 自动SQL Review和优化
  • 容量评估和规格推荐
  • 弹性伸缩

监控告警

对用户本地IDC和云上的数据库进行集中管理,统一监控,节省用户50%以上的管理成本,显著减少操作故障概率。

  • 统一监控通过DAS平台,即可查看所有环境、所有集群、所有实例的性能趋势情况和实时性能情况。
    • 低成本:用户无需耗费人力开发和部署采集、计算、存储程序,直接使用DAS即可监控数据库。
    • 指标丰富:支持数据库各项关键指标的采集、计算和展示。
    • 细粒度的监控:支持用户按需设置细粒度的监控,最小支持秒级监控,帮助用户快速发现异常。
  • 统一告警支持云上云下数据库告警规则的自定义、告警信息的发送。
    • 默认告警模版:基于阿里巴巴的数据库运维经验,为各种数据库引擎定义了默认的告警模版,用户可以直接使用。
    • 灵活配置:支持各种告警规则、告警模版、告警联系人、告警联系组的灵活配置,用户可以为企业内不同的使用者定义不同的告警模版。
    • 告警提醒:DAS自动检查添加到该DAS的所有数据库实例是否配置了告警。如果某数据库实例没有配置告警,DAS会向您发送提醒。这可以防止您的业务因缺少告警而受损。

自治服务(智能诊断和优化)

基于机器学习和细粒度的监控数据,实现7 x 24小时的异常检测,提供自动SQL限流、异常快照、自动SQL Review和优化、存储空间自动扩展、计算资源自动扩展等功能,从异常发现、根因分析、进行止损或优化、效果跟踪、回滚或沉淀知识库,实现诊断流程的闭环,优化效果可量化,确保数据库持续可用。

DAS实现了无人工参与的自治场景支持,且数据库自治服务系统自身具备不断构建自学习能力,例如异常的自动标注、案例系统设置、异常模拟、量化反馈评估等,依托线上业务场景的丰富性积累,沉淀大量案例,以案例为驱动,加速自我进化,不断提升自治的有效性。基于以上理念,DAS已拥有 6大核心自治特性:7 x 24实时异常检测、故障自愈、自动优化、智能调参、自动弹性、智能压测。

DAS核心理念示意图在在整个设计、研发、落地过程中,被始终如一地遵循和贯彻的理念。
  • 数据驱动:通过海量实时数据收集,如性能指标,负载SQL的请求日志、运维变更日志等等, 以此为基础,构建探测能力,具备环境、态势的实时感知、异常实时发现能力。
  • 自我决策能力:机器学习和数据库领域专家经验的深度融合,DAS根据业务场景做出决策。
  • 自动执行能力:根据自治中心决策,自动进行任务编排,自动完成决策的执行
  • 闭环管理:DAS提供了一个闭环流程来协调操作和管理服务。例如,在检测到异常后,DAS可以基于根因分析做出全局决策。然后,DAS根据全局决策诊断故障,优化性能。最后,DAS持续跟踪效果、评估性能改进、提供反馈和回滚操作。
理念

企业级数据库服务

  • Dashboard

    DAS总结阿里巴巴数据库团队多年的数据库运维和管理经验,提供多种监控场景,跨实例、跨集群、跨环境,跨功能模块的护航大盘、实例大盘等。

  • 多环境、多集群管理

    DAS满足企业管理多套环境多套集群的需求,支持环境级别、集群级别的性能监控指标的聚合和下钻,贴近企业级管理视角。

  • 巡检评分

    DAS支持巡检评分,自动对用户接入DAS的所有数据库实例进行巡检,从基础巡检到SQL、容量、性能、安全等等,并给出健康评分,帮助用户一目了然的确认数据库运行情况。

数据库安全审计

DAS提供高危SQL识别、SQL注入检测、新增访问来源识别、敏感数据访问发现等服务,实时检测,全量审计,快速识别数据库异常访问、拖库等行为,有效保障数据库安全。

数据库安全审计包含如下功能:

  • SQL注入识别
  • 高危SQL识别
  • 新增访问来源识别