内存压力成因诊断与全场景优化方法-云数据库RDS-阿里云-云数据库 RDS(RDS)-阿里云帮助中心

背景信息

SQL Server采用动态内存管理机制：为减少高昂的磁盘 I/O 开销，SQL Server默认会尽可能多地占用可用内存用于缓存数据（Buffer Pool）和执行计划（Plan Cache）。只有在检测到内部或外部内存压力时，才会触发缓存裁减或释放。

高内存使用率是常态：只要操作系统没有发出内存不足的信号，SQL Server就不会主动释放已占用的内存。因此，SQL Server内存使用率高通常是正常现象，表明其正在充分利用资源以提升性能。
内存压力：只有当内存不足以支撑当前负载，导致数据页频繁换入换出、内存分配出现等待或报错时，才被称为“内存压力”。

具体而言，这种内存压力在RDS SQL Server中通常呈现为以下四种典型形态：

缓冲池压力（数据缓存不足）

由于数据缓存空间不足，数据页无法长时间驻留，Page Life Expectancy 持续走低。这会导致缓存命中率下降，系统被迫通过高昂的磁盘 I/O 来获取数据。
查询工作区压力（计算内存缺乏）

涉及排序或哈希的复杂查询需要申请独立内存（Query Memory Grant）。若可用内存不足，查询将出现排队等待，或将数据溢出到tempdb（Spills），造成执行效率大幅下降。
非缓冲池压力（内部组件“挤占”）

除了缓存数据，SQL Server 还需要内存用于执行计划、锁管理和连接等（统称 Stolen Memory）。如果这些部分占用过多，会反过来挤压缓冲池的空间，造成内存紧张。
外部内存压力（非SQL Server的内存压力）

指宿主操作系统可用内存过低时，强制要求SQL Server释放内存。虽然RDS会自动配置参数以保护操作系统内存，但在部分资源配比不均衡的场景下仍可能发生。例如：小内存支撑海量数据场景（如4核8G规格承载2TB数据）。尤其在物理备份组件启动流式备份时，其额外内存开销会加剧内存压力，导致SQL Server被迫回收缓存，引发性能抖动或内存不足错误。

在诊断时，我们首先需要结合性能指标识别是哪种类型的内存压力，从而采取对应的优化措施。

一、确定内存使用情况

1.1 通过监控与报警初步确定内存压力

操作步骤

访问RDS实例列表，在上方选择地域，然后单击目标实例ID。
在左侧导航栏单击监控与报警。
查看与内存相关的mem_usage、Page_life_expectancy与bufferpool_hit_ratio指标。

初步确认内存压力

在RDS SQL Server中，mem_usage（内存使用率）达90%以上通常属正常现象：SQL Server会尽可能地利用可用内存提升性能（如数据缓存），且该指标包含SQL Server进程、操作系统及管控服务等部分内存占用。

但实例若启用Linked Server、CLR、In-Memory OLTP或大量XEvent/Trace等高内存开销功能，实际内存消耗可能显著超出max server memory的配置值，导致整体内存压力加剧、性能抖动风险上升。此时建议适当调低max server memory，为系统预留必要内存余量以保障稳定性。

mem_usage指标建议关注的上限：

512 GB实例内存规格：97%
256 GB实例内存规格：96%
192 GB 及以下实例内存规格：95%

1.2 通过自治服务详细分析内存使用情况

说明

性能洞察功能目前支持部分地域和版本（不支持 SQL Server 2008 R2 云盘版实例），请确保实例位于支持区域并已开启自治服务。

操作步骤

访问RDS实例列表，在上方选择地域，然后单击目标实例ID。
在左侧导航选择自治服务 > 性能优化，进入性能洞察页签。
单击页面右上角的自定义指标，在全量指标列表中选择内存相关的性能指标，添加后单击确认。常用的内存指标包括内存使用分类和AdvancedMemUsage（内存使用高级分类）两组。

内存使用分类指标

内存使用分类中的指标基本对应SQL Server Memory Manager对象的性能计数器。通常来说：

Total_Server_Memory_Kb：可用于宏观判断内存是否达到上限。
Database_Cache_Memory_Kb与Stolen_Server_Memory_Kb：可用于判断内存分配在数据缓存与其他用途的构成比例。
Free_Memory_Kb：用于观察短期内存余量。

但是，仅凭某一项内存使用率的高低并不能断定好坏，还需结合性能趋势和工作负载综合判断。

指标名称	指标含义	典型异常场景	诊断与优化建议
Total_Server_Memory_Kb	服务器当前已提交内存指 SQL Server 内存管理器当前已向操作系统申请并提交（Committed）的内存总量。该值通常随负载动态增长，直至接近max server memory配置上限。	/	/
Stolen_Server_Memory_Kb	非数据页内存（Stolen）指从缓冲池中“借用”给其他内部组件使用的内存总量。包含执行计划缓存、锁结构、连接上下文及辅助数据结构等。	内部组件争用该值占总内存比例持续过高（例如超过 40%）。这将导致用于数据缓存的空间被压缩，进而引发数据页频繁换入换出（I/O 抖动）。	Stolen 内存升高是内存压力最常见的内部源头之一。需结合后文AdvancedMemUsage细分指标，定位具体是计划缓存（Plan Cache）还是其他组件占用了内存，并采取针对性优化。
Database_Cache_Memory_Kb	数据页缓存内存指缓冲池（Buffer Pool）中实际用于缓存数据库数据页的内存大小。该值直接关系到查询的数据命中率。	缓存空间匮乏该值出现大幅下跌或剧烈波动，同时伴随磁盘读取（Page Reads）激增。通常是由于 Stolen 内存增加导致的被动缩减。	此指标是被动指标：若发现数据缓存不足，优先解决挤占内存的组件（如优化 SQL 减少计划缓存）。若组件使用均正常，则说明工作集（Working Set）确实大于实例规格，应考虑升级内存配置。
SQL_Cache_Memory_Kb	执行计划缓存总量指用于存储各类执行计划（SQL Requests、存储过程、触发器等）的内存总和。它是 Stolen 内存的主要组成部分。	计划缓存膨胀该值持续攀升并占用大量内存，且缓存命中率较低。常见于大量非参数化的 Ad-hoc SQL 导致缓存被单次使用的计划填满。	开启 optimize for ad hoc workloads 选项。强制要求应用端进行 SQL参数化改造，减少字面值不同的重复SQL。检查是否启用了过多的 ORM框架自动生成查询。
Optimizer_Memory_Kb	查询优化内存指查询优化器在编译和生成执行计划过程中所消耗的动态内存。	编译风暴该值持续维持高位，或呈现密集尖峰。通常意味着系统正在发生大规模的并发编译（Compilation Storm）。	需要结合指标SQL Compilations/sec观察。若二者同时升高，需检查是否因为架构变更、统计信息更新或缓存压力导致了频繁的计划重编译。
Lock_Memory_Kb	锁结构内存指用于维护数据库锁（如行锁、页锁、表锁）及其状态信息的内存开销。	锁资源滥用该值飙升至数百 MB 甚至更高。通常由未提交的大型事务（持有海量行锁）或严重的锁升级阻塞引起。	避免超大事务，将批量删除/更新操作拆分进行。优化索引设计以减少扫描范围，从而降低锁的数量。检查是否存在长事务导致锁无法释放。
Connection_Memory_Kb	连接上下文内存指用于维护客户端与数据库服务器之间物理连接状态的内存开销。	连接泄露或风暴短时间内连接数激增，导致此内存指标快速上升。常见于应用端未正确使用连接池，或未正确关闭连接。	规范应用端的连接池（Connection Pool）配置，复用连接。设置合理的连接池上限。排查应用代码是否存在开启连接后忘记关闭（Close/Dispose）的逻辑漏洞。
Free_Memory_Kb	空闲内存指 SQL Server 已提交但当前未分配给任何具体请求的内存余量。	资源耗尽（需结合上下文）该值长期维持在 0 或极低水平，并且页面生命周期（PLE）同步下降。	单独观察 Free Memory 接近 0 属于正常现象（SQL Server 倾向于通过缓存占满内存）。仅当 Free Memory 为 0 且伴随大量 PAGEIOLATCH等待时，才确认为内存不足，需考虑扩容或优化负载。

AdvancedMemUsage指标（Stolen内存细分）

为进一步诊断Stolen内存的去向，RDS提供AdvancedMemUsage细分指标，将Stolen分类为不同类别的内存分配。这些指标对应SQL Server内部的特定内存组件，有助于进一步获取内存使用分类信息。

指标名称	指标含义	典型异常场景	诊断与优化建议
CACHESTORE_SQLCP_KB	Ad-hoc查询计划缓存用于存储即席查询（Ad-hoc）、准备语句（Prepared Statements）及服务器端游标的执行计划。	非参数化查询过多应用程序频繁提交逻辑相同但字面文本不同（如拼接参数）的 SQL 语句，导致缓存中积压大量单次使用的执行计划，引发内存膨胀。	修改应用代码，使用参数化查询（Parameterized Queries）。启用实例参数optimize for ad hoc workloads，降低单次计划的内存开销。
CACHESTORE_OBJCP_KB	计划缓存-对象（缓存存储对象：OBJCP）用于缓存存储过程、函数、触发器等编译后的执行计划	计划过度冗余数据库中存在过多存储过程。遭遇参数嗅探问题（Parameter Sniffing），导致同一存储过程针对不同参数生成并保留了过多的执行计划版本。	审计并清理长期未使用的数据库对象。针对参数嗅探导致的计划膨胀，可在语句级使用 OPTION(RECOMPILE) 或查询提示（Query Hint）进行控制。利用SQL Server 2022版本，利用 PSP（Parameter Sensitive Plan）特性优化。
CACHESTORE_PHDR_KB	解析树与代数化树缓存用于在查询编译过程中，临时存储 SQL 文本对应的解析树（Parse Tree）或代数化树（Algebrizer Tree）。	SQL 文本复杂度过高例如：查询语句中包含超大规模的常量列表（如IN 子句包含数千个值）或极长的 SQL 文本（语句本身过长或程序中拼接多个SQL），导致编译阶段生成的解析结构占用大量内存。	避免在SQL语句中硬编码大量常量，推荐使用临时表或表值参数（TVP）进行传参关联。简化单条SQL语句的复杂度，或将超大批次操作拆分处理。
MEMORYCLERK_SOSNODE_KB	SQL OS内存节点分配（内存簇：SOSNODE） SQL Server 内部用于调度、内存管理等的结构分配内存。每个NUMA节点各有一组SOSNODE内存，一般占用稳定。	正常情况下SOSNODE内存随实例运行略有增长并稳定。但在低规格的高可用版RDS SQL Server场景下，存在SOSNODE内存缓慢膨胀的问题（疑似碎片或泄漏），尤其发生在镜像（Mirroring）架构的高可用小规格实例上。表现为 MEMORYCLERK_SOSNODE_KB随运行时间不断上涨且长期不回落。	用于 SQL Server 内部调度。在小规格高可用实例上可能出现缓慢增长，详情请参见附录1：SOSNODE内存增长问题。
MEMORYCLERK_SQLCLR_KB	CLR 托管内存用于分配和管理 SQL Server 集成的公共语言运行时（CLR）组件所需的内存资源。	用户部署的自定义CLR程序集（如 C# 编写的存储过程/函数）涉及复杂的内存操作，或存在对象未正确释放（Dispose）的情况。	审查自定义CLR代码，确保非托管资源被正确释放。移除不再使用的CLR程序集。限制CLR的最大内存使用量（谨慎使用，可能导致CLR执行失败）。
MEMORYCLERK_SQLSTORENG_KB	存储引擎内部内存用于存储引擎核心组件，包含tempdb的行版本存储（Version Store）、元数据缓存及文件管理结构等。	行版本存储堆积当数据库启用了快照隔离（Snapshot Isolation）或读取已提交快照（RCSI）时，若存在长事务未提交，会导致 tempdb 中的版本链无法清理，进而占用此部分内存。	监控并终止长期运行的未提交事务。检查 sys.dm_tran_version_store_space_usage 确认版本存储的使用情况。规范业务逻辑，避免在高并发环境下维持过长的事务跨度。
USERSTORE_SCHEMAMGR_KB	用户存储-架构管理（User Store：SCHEMAMGR）缓存数据库对象元数据（如表定义）。TempDB中的临时表、表变量、临时过程等也使用该缓存来存放元数据描述。	升高场景：当系统中对象数量非常多或短时间内频繁创建销毁临时对象（TempDB大规模使用临时表/表变量）时，SCHEMAMGR 内存会上升。影响路径： Schema 元数据缓存占用过高，会占用部分Stolen内存，不过一般不会成为最主要内存消费者。极端情况下（如TempDB疯狂建表），可能影响内存回收滞后。	尽量复用临时表而非频繁创建销毁。清理不再使用的对象。对于永久对象数量很多的数据库，定期审核架构设计，避免无用对象堆积。一般情况下，该值占比不高，无需特殊处理。

通过AdvancedMemUsage指标的细分，我们可以确定内存被哪些组件占用，从而采取相应措施，例如：

若计划缓存相关的CACHESTORE_SQLCP/OBJCP类占比较高，优化重点应放在执行计划重用和参数化方面。
如果MEMORYCLERK_SQLCLR异常，则需要检查CLR模块。
MemoryClerk_SOSNODE长期攀升则属于SQL Server引擎问题，需考虑重启等运维手段。

二、分析与优化内存压力

在确定存在内存压力后，需要深入分析是哪一类压力，并结合具体业务场景进行优化。以下按常见场景逐一说明诊断思路和优化方法。

场景一：缓冲池缓存不足

异常表现

当实例出现以下特征时，通常表明数据页无法在内存中长时间驻留，缓冲池面临压力：

I/O指标突增： 性能洞察中Page_Reads（物理读）显著升高，磁盘I/O吞吐量增大。
生命周期短： 页面生命周期Page Life Expectancy (PLE) 长期低于健康阈值。

PLE表示数据页在缓冲池中的平均存活时间（秒）。传统“300秒”阈值已不适用于大内存实例，建议根据内存规格动态计算阈值，较为通用的计算公式为：

PLE = (Buffer Pool Memory(GB) / 4GB) * 300

PLE计算示例：

16GB 规格实例（Buffer Pool约12GB）：合理PLE应大于 900秒（12/4 * 300）。
128GB 规格实例（Buffer Pool约110GB）：合理PLE应大于 8250秒（110/4 * 300）。

诊断思路

确认相关性： 检查PLE下降是否伴随着Page_Reads同步攀升。若二者强相关且发生在业务高峰期，可确诊为缓存不足。
排除干扰项： 若PLE下降但I/O未显著升高，或发生在备份、索引重建、CheckPoint期间，通常属于正常波动（短时跌落），无需过度关注。
评估容量： 对比Database_Cache_Memory_Kb与活跃数据集大小。若缓存已占满但仍只能容纳极小部分热点数据，说明存在硬性瓶颈。

优化方案

扩容内存： 若确认工作集远大于当前内存规格，升级实例规格是降低 I/O 延迟最直接的手段。
优化查询： 检查是否存在全表扫描或大范围聚合。若存在，可以通过添加索引将扫描转为查找，避免一个大查询刷掉整个缓冲池的热点数据。
缩减工作集：
- 归档： 将历史冷数据迁移至归档表。
- 压缩： 启用表/索引数据压缩，让相同内存容纳更多数据页。
- 维护： 重建碎片化严重的索引，提高页密度，删除无用索引以减少维护开销。

场景二：执行计划缓存膨胀（Plan Cache 占用过高）

异常表现

当实例Stolen内存占比异常升高，达到引擎限制并开始挤占缓冲池空间时，通常表明执行计划无法有效重用。

内存特征： Stolen Server Memory持续增长并维持在较高水平（接近 Plan Cache 的内部配额上限），导致Database Cache Memory无法获得充足内存，PLE被迫下降。
性能特征： 伴随CPU使用率增高（因缓存需频繁清理并重新编译新计划）及磁盘 I/O 增加（因数据页缓存空间被压缩）。
典型触发场景： 应用存在大量发送未参数化的Ad-hoc SQL，或ORM框架生成海量一次性执行计划，导致缓存被低价值计划填满。

诊断思路

确认相关性：观察Stolen内存是否显著高于历史基线，且与PLE下降呈现负相关。

量化单次计划比例：统计usecounts = 1的计划数量及内存占用。若单次使用的计划占用Plan Cache的比例极高（例如大于50%），说明内存被大量浪费。

用于诊断SQL命令

WITH PlanStats AS
(
    SELECT
        cp.usecounts,
        cp.size_in_bytes / 1024.0 / 1024.0 AS size_mb
    FROM sys.dm_exec_cached_plans AS cp
    WHERE cp.cacheobjtype = 'Compiled Plan'
)
SELECT
    total_plans           = COUNT(*),
    single_use_plans      = SUM(CASE WHEN usecounts = 1 THEN 1 ELSE 0 END),
    single_use_ratio_pct  = 
        CAST(
            100.0 * SUM(CASE WHEN usecounts = 1 THEN 1 ELSE 0 END) / NULLIF(COUNT(*), 0)
            AS DECIMAL(5,2)
        ),
    total_plan_mb         = CAST(SUM(size_mb) AS DECIMAL(18,2)),
    single_use_plan_mb    = CAST(SUM(CASE WHEN usecounts = 1 THEN size_mb ELSE 0 END) AS DECIMAL(18,2)),
    single_use_mem_pct    = 
        CAST(
            100.0 * SUM(CASE WHEN usecounts = 1 THEN size_mb ELSE 0 END) 
            / NULLIF(SUM(size_mb), 0)
            AS DECIMAL(5,2)
        )
FROM PlanStats;

定位来源： 结合sys.dm_exec_sql_text抽样查看单次计划的SQL文本。若发现大量结构相同仅字面值不同的SQL，即可确定为应用未参数化导致。下面SQL查看前20个仅使用一次，执行计划缓存空间使用最大的前20个缓存：

查看缓存的SQL命令

--查看占用内存最多的前 20 个 Ad-hoc 查询及其文本
SELECT TOP 20
    cp.usecounts AS [Execution_Count],
    cp.size_in_bytes / 1024 AS [Plan_Size_KB],
    cp.objtype AS [Object_Type],
    st.text AS [SQL_Text] 
FROM sys.dm_exec_cached_plans AS cp
CROSS APPLY sys.dm_exec_sql_text(cp.plan_handle) AS st
WHERE cp.objtype = 'Adhoc' 
  AND cp.usecounts = 1 
ORDER BY cp.size_in_bytes DESC;

优化方案

启用Optimize for Ad hoc Workloads选项
- 操作：访问RDS实例列表，进入实例详情页，在左侧导航栏单击参数设置，搜索optimize for ad hoc workloads参数并启用。
- 原理： 参数开启后，对首次执行的Ad-hoc SQL仅缓存轻量级存根（Stub），第二次执行才存储完整计划。
- 效果： 显著减少单次查询对Stolen内存的占用，缓解内存压力（此选项不能减少 CPU 编译开销，仅优化内存使用）。
应用端优化
- 参数化查询：修改代码逻辑，使用参数化查询（Parameterized Query）代替字符串拼接。
- ORM 配置： 检查ORM框架是否开启了自动参数化或二级缓存。
启用强制参数化（Forced Parameterization）

若无法修改应用代码，可在RDS控制台启用数据库级别的强制参数化：
- 访问RDS实例列表，进入实例详情页，在左侧导航栏单击数据库管理。
- 对待开启强制参数化的数据库，单击右侧查看详情。
- 在基础信息区域中找到parameterization参数，设置为FORCED，单击提交。
  
  说明
  请务必在测试环境验证，避免启用该参数后因计划改变导致个别复杂查询性能回退。

场景三：查询内存授予不足

异常表现

与缓冲池压力不同，此类压力不一定会导致PLE下降。当查询涉及排序（Sort）或哈希（Hash）操作时，如果申请不到足够的工作区内存，会出现以下两种典型症状：

排队等待 (Wait)
- 表现：查询迟迟不开始执行，处于SUSPENDED状态。
- 指标：等待类型为RESOURCE_SEMAPHORE（极度严重，表示内存耗尽，查询在排队）或RESOURCE_SEMAPHORE_QUERY_COMPILE，性能计数器Memory Grants Pending数值突增。
溢出磁盘 (Spill)
- 表现：查询虽然在执行，但速度极慢。
- 指标：TempDB的 I/O 写入显著增加。
- 执行计划：在Sort或Hash Match操作符上出现黄色警告图标，提示“Operator used tempdb to spill data...”（数据溢出到 TempDB）。这表示内存不足，SQL Server被迫将中间结果写到磁盘上进行计算。

诊断思路

可以通过实时查询数据或历史查询数据，分析内存授予消耗最高的SQL语句。在结果的执行计划 (query_plan) 中，搜索Spill关键字或查看Sort/Hash操作符是否有警告图标。

实时查找当前内存授予消耗最高的语句。

分析实时查询

-- 查看实时内存授予
SELECT
    mg.session_id,
    mg.request_time,
    mg.grant_time, -- 若为 NULL，表示正在排队等待内存 (RESOURCE_SEMAPHORE)
    (mg.requested_memory_kb / 1024.0) AS requested_mb,
    (mg.granted_memory_kb / 1024.0) AS granted_mb,
    (mg.required_memory_kb / 1024.0) AS required_mb,
    mg.queue_id,
    mg.wait_order,
    st.text AS sql_text,
    qp.query_plan
FROM sys.dm_exec_query_memory_grants AS mg
CROSS APPLY sys.dm_exec_sql_text(mg.sql_handle) AS st
CROSS APPLY sys.dm_exec_query_plan(mg.plan_handle) AS qp
ORDER BY mg.granted_memory_kb DESC;

分析缓存中的历史执行统计，找出历史上申请内存最大的查询。

分析历史查询

SELECT TOP 20
    qs.execution_count,
    (qs.max_grant_kb / 1024.0) AS max_grant_mb, -- 最大一次执行申请的内存
    (qs.total_grant_kb / qs.execution_count / 1024.0) AS avg_grant_mb,
    (qs.total_worker_time / qs.execution_count / 1000.0) AS avg_cpu_ms,
    qs.last_execution_time,
    SUBSTRING(st.text, (qs.statement_start_offset/2)+1,
        ((CASE qs.statement_end_offset
          WHEN -1 THEN DATALENGTH(st.text)
          ELSE qs.statement_end_offset
          END - qs.statement_start_offset)/2) + 1) AS query_text,
    qp.query_plan
FROM sys.dm_exec_query_stats AS qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) AS st
CROSS APPLY sys.dm_exec_query_plan(qs.plan_handle) AS qp
ORDER BY qs.max_grant_kb DESC;

核心成因与优化方案

统计信息过时（最常见原因）
- 成因：统计信息陈旧导致优化器严重低估结果集行数（例如：实际处理 100 万行，预估仅1行）。优化器据此申请了极小的内存（如1MB），导致执行过程中内存不够用而频繁溢出到磁盘（Spill）。
- 解决：建议定期或在业务低峰期更新数据库统计信息，确保优化器能准确预估内存需求。
巨型查询并发争抢
- 成因：多个需要进行全表排序或大规模哈希聚合（Hash Aggregate）的重型报表查询同时运行，耗尽内存，导致后续查询进入等待队列。
- 解决：实施错峰执行策略，建议将消耗大量内存的报表任务调度至夜间串行执行，避免高峰期并发争抢资源。
代码或索引设计问题
- 高内存消耗算子：查询中包含复杂的JOIN、GROUP BY、ORDER BY或DISTINCT操作，但缺乏适配的索引。这迫使SQL Server必须在内存中构建巨大的哈希表（Hash Table）或进行中间排序，导致内存需求激增。
- 数据宽度过大：使用SELECT *或选取了不必要的长文本列，导致单行数据“虚胖”。由于内存授予大小 = 预估行数 × 平均行宽，列越宽，所需的总内存就越大。
- 解决：
  - 创建排序索引：建立覆盖索引或有序索引，帮助优化器选择内存消耗更低的物理操作。
  - 应用侧优化： 严格遵循“最小够用”原则，只筛选必要的列，减少数据行宽度。同时，对于包含大量连接的大型查询，尝试拆分为多个简单的步骤处理。

三、总结：内存压力诊断流程

第一阶段：初步判断（基于PLE和等待状态）

首先检查Page Life Expectancy (PLE)和Page Reads指标，通常会出现三种情况：

无内存压力：若PLE长期高于阈值且无大幅波动，即使内存使用率接近100%也是SQL Server的正常行为。此时应忽略内存，重点排查CPU或I/O瓶颈。
缓冲池压力：若PLE频繁低于阈值甚至急剧下降，伴随每秒大量页读（Page Reads升高），说明数据页无法在内存中久驻，需要进入下一步分析内存构成。
Query Memory 压力：若PLE看起来正常，但系统出现内存授予等待（Memory Grants Pending > 0）或查询频繁Spill到TempDB。这属于查询执行内存不足，与缓冲池无关，应直接针对相关SQL进行优化（如减少排序、增加索引）。

第二阶段：分析内存构成（Database Cache vs Stolen）

在确认存在压力后，需查看内存使用分类，区分是内存被挤占还是内存不足：

Stolen 占比高：若发现Database Cache偏小，而Stolen Server Memory占比较大（如超过20%），说明大量内存被非数据页用途（如计划缓存、连接、CLR等）挪用。这是典型的分配不当，重点在于找回被滥用的内存。
Database Cache 占满：若Database Cache已经占据了绝大部分内存，Stolen占比很低，且 Free Memory长期趋近于0。这表明物理内存确实无法承载当前的热点数据量，属于硬性的容量瓶颈，可以通过优化减少热点数据使用或扩容增加内存上限。

第三阶段：定位消耗与综合决策

根据第一、二阶段的分析结果，决定采取性能优化还是内存扩容：

性能优化（针对Stolen高或Query Memory 压力）
- 定位Stolen高消耗组件：查询sys.dm_os_memory_clerks视图。如果 CACHESTORE_SQLCP占用高，说明计划缓存膨胀，需要优化SQL写法（参数化）等。如果是SQLCLR或其他组件异常，需针对性调整应用逻辑。
- 解决Query Memory：对于申请内存过大的查询，通过改写SQL、更新统计信息或添加索引来降低其内存，扩容通常不能解决此类争用问题。
内存扩容（针对 Database Cache容量不足）

当确认内存主要用于存储数据页（DB Cache），且没有明显的Stolen内存高现象，但PLE依然较低。这意味着业务的数据热点规模已经超过了当前的物理内存规格。此时，升级实例规格或增加内存是解决I/O瓶颈、提升性能的最有效手段。

附录1：SOSNODE内存增长问题

在RDS SQL Server高可用版实例中，若实例长期运行（数月未重启），可能会观察到 MEMORYCLERK_SOSNODE_KB呈现缓慢上涨趋势，且与业务波峰无直接关联，这个问题在2核 4GB 或4核 8GB等小规格实例上尤其明显，这部分内存会算在Max Server Memory中并且会挤压Buffer Pool部分，导致实例呈现出明显的内存瓶颈。

这是典型的SOSNODE对象的内存泄露，微软并未彻底修复，在多个SQL Server版本都存在此风险，建议您：

升级到更高的版本以规避风险。
根据内存泄露的趋势，安排每2～4个月在业务低峰期进行一次计划性重启，以释放泄露内存，避免长期积累导致内存耗尽（Errorlog中可能产生 701错误）。

同时RDS也会持续跟踪此类异常增长趋势，当指标达到阈值时，会自动触发主动运维，您可在控制台的事件中心查看到对应的任务。