Tair AI助手

更新时间:
复制为 MD 格式

Tair AI 助手是基于大语言模型的智能运维工具,提供智能问答和智能巡检两大核心能力,帮助您快速定位实例问题并获取优化建议。

说明

产品状态:免费公测中。

核心能力

智能问答

功能说明

基于阿里云官方文档与 Tair 专家知识库,提供自然语言驱动的智能问答服务。您可以通过 @ 选择具体实例,使回答更具针对性。

适用场景

  • 产品功能咨询:查询 Tair 实例的架构类型、版本差异、参数配置等产品相关信息。

  • 最佳实践获取:获取大 Key 治理、热 Key 优化、内存管理、连接池配置等运维场景的专家建议。

  • 故障排查指导:针对连接超时、内存使用率过高、延迟抖动等常见问题,获取排查思路与解决方案。

  • 操作指引:了解如何创建实例、配置白名单、设置数据同步、开启审计日志等操作步骤。

智能巡检

功能说明

提供一键式智能巡检能力。您可以选择巡检项目与时间范围,系统自动采集实例运行数据并生成巡检报告,帮助提前发现潜在风险。

巡检项目

巡检项目

说明

实例状态

检查实例运行状态及基本健康指标。

实例安全性

审查实例的安全配置项。

高可用与容灾

评估实例的高可用架构与容灾能力。

数据节点性能

从命令和事件两个维度分析 DB 节点的时延洞察数据,定位性能瓶颈。

代理节点性能

分析 Proxy 到 DB 节点的时延链路,智能诊断网络与负载问题。

慢日志分析

分析 DB 和 Proxy 节点的慢查询日志,识别高耗时命令并给出优化建议。

Key/HotKey

多维度检测大 Key 与热 Key,分析节点分布与性能影响。

事件及告警

汇总运维事件与告警信息,辅助追溯问题根因。

巡检项目详细说明

数据节点性能

通过分析 DB 节点的时延洞察数据,从命令和事件两个维度定位性能瓶颈:

  • 命令维度:统计各 DB 节点上高耗时命令的最大响应时间(maxRT)与调用次数,识别是否存在高时延命令集中在某一节点的情况。例如 HGETALLKEYSSMEMBERS 等复杂度较高的命令。

  • 事件维度:检测影响性能的系统级事件,包括 fork(RDB 持久化/AOF 重写时创建子进程)、active-defrag-cycle(内存碎片整理)、expire-cycle(过期 Key 清理)、aof-write(AOF 写入)、eviction-cycle(数据逐出)等,并给出对应的优化建议。

代理节点性能

通过对比各 Proxy 与 DB 节点之间的 RT(响应时间)数据,识别以下四种异常模式:

异常模式

可能原因

多 Proxy → 单 DB 时延高

DB 节点自身负载过高或存在慢命令。

单 Proxy → 单 DB 时延高

两者之间的网络链路存在异常。

单 Proxy → 多 DB 时延高

Proxy 节点自身负载过高或网络异常。

多 Proxy → 多 DB 时延高

集群整体流量激增或底层资源异常。

同时检测是否存在多个异常节点位于同一物理主机的情况,辅助定位主机级别的性能问题。

慢日志分析

分别针对 DB 节点和 Proxy 节点的慢查询日志进行分析:

  • DB 慢日志:聚合分析各节点的慢命令详情,包括命令类型、执行次数(cnt)、最大耗时(maxRT)及访问来源 IP 分布。重点识别高危命令模式,如 KEYS 全量扫描(建议改用 SCAN)、大范围 ZRANGEBYSCORE 查询(建议缩小查询范围或优化索引)、高频 EVAL(Lua 脚本)等。

  • Proxy 慢日志:从 Proxy 视角分析慢请求的 DB 节点分布、客户端来源及命令类型,定位慢请求集中的 DB 节点,结合命令时间复杂度判断根因(如 O(1) 命令与 O(N) 命令同时变慢,大概率是 O(N) 命令引起的阻塞)。

Key/热Key

覆盖以下四个分析维度:

分析维度

说明

大 Key - 元素数量

检测元素数量过多的 Key(如大型 Set、List、Hash),输出 Top 5 并分析节点分布。

大 Key - 占用内存

检测占用内存过大的 Key,输出 Top 5 并分析节点分布。

热 Key - QPS

检测每秒访问次数过高的 Key,输出 Top 5 并分析请求的输入/输出流量。

热 Key - 网络流量

检测网络流量过大的 Key,输出 Top 5 并识别同时出现在 QPS 和流量维度中的高风险 Key。

巡检报告会分析大 Key/热 Key 在各节点的分布情况,特别关注是否存在 hashtag(如 {tag})导致的数据倾斜,并建议结合慢日志交叉排查相关调用。

事件及告警

汇总指定时间范围内的运维事件与告警信息,包括主备切换、内核升级、资源预警、大流量请求等。其中大流量分析可聚合识别集中的命令模式、客户端 IP 来源及目标 DB 节点分布,定位流控触发的根因。

时间范围

巡检支持以下时间范围选项:

  • 近 1 小时

  • 近 3 小时

  • 近 1 天(24 小时)

  • 自定义时间范围:自定义起止时间,默认最长 24 小时,最多支持查询 7 天内的数据。

操作步骤

  1. 在 Tair AI 助手面板中,选择需要巡检的目标实例。

  2. 勾选所需的巡检项目,支持全选。

  3. 选择巡检的时间范围。

  4. 单击开始巡检,等待巡检报告生成。

  5. 查看巡检结果,根据建议进行相应优化。

使用入口

登录 Tair 管理控制台,可通过以下方式进入 Tair AI 助手:

  • 页面右侧边栏的 Tair AI 助手图标。

  • 实例详情页顶部的AI 实例巡检入口,可直接对当前实例发起智能巡检。

说明

RAM 用户需具备相应的 Tair 实例访问权限。AI 助手自动继承用户的 RAM 权限,仅可访问已授权的实例。

费用说明

Tair AI 助手当前处于免费公测阶段,公测期间所有功能均可免费使用。公测结束后的计费方式将另行通知。

使用建议

  • 提问时建议包含具体的实例 ID、时间范围及问题描述,以获取更精准的回答。可通过 @ 选择目标实例。

  • AI 助手的回答和巡检报告基于模型推理生成,仅供参考。在执行关键变更操作前,请结合业务实际情况进行验证。

  • AI 助手不会自动执行变更操作,所有涉及实例变更的操作均需用户手动确认执行。

  • 巡检功能需采集实例的基本信息、监控指标、日志等数据用于分析,不会将数据用于其他用途。

免责声明

  • Tair AI 助手的回答内容由 AI 生成,仅供参考,不保证完全准确,不代表阿里云的立场或承诺。

  • 您应对使用 AI 助手所生成内容的行为及操作结果自行承担责任。

  • 诊断与巡检功能需采集实例基本信息、监控指标及日志数据,相关数据仅用于当次分析。

常见问题

Q:Tair AI 助手是否会自动执行变更操作?

A:不会。Tair AI 助手仅提供分析建议和操作指引,所有涉及实例变更的操作均需用户手动确认执行。

Q:支持哪些 Tair 实例类型?

A:Tair AI 助手支持 Tair(兼容Redis)的所有实例类型,包括标准架构、集群架构和读写分离架构。

Q:智能巡检的时间范围最大支持多长?

A:默认最长 24 小时,最多支持 7 天的时间范围。

Q:如何提高 AI 助手回答的准确率?

A:建议在提问时明确实例 ID、具体时间范围及问题现象描述。使用 @ 选择目标实例可帮助 AI 助手获取实例上下文,提供更精准的分析和建议。