本文介绍了如何进行缓冲区管理。
背景信息
- 未来页数据页中包含只读节点尚未回放到的数据。例如,只读节点回放LSN为200的WAL日志,但数据页中已经包含LSN为300的WAL日志对应的改动。此类数据页被称为未来页。
- 过去页数据页中未包含所有回放位点之前的改动。例如,只读节点将数据页回放到LSN为200的WAL日志,但该数据页在从Buffer Pool淘汰之后,再次从共享存储中读取的数据页中没有包含LSN为200的WAL日志的改动,此类数据页被称为过去页。对于只读节点而言,只需要访问与其回放位点相对应的数据页。但如果读取到如上所述的未来页和过去页时,可以按照以下步骤处理:
- 对于过去页,只读节点需要回放数据页上截止回放位点之前缺失的WAL日志,对过去页的回放由每个只读节点根据自己的回放位点完成,属于只读节点回放功能,此处暂不赘述。
- 对于未来页,只读节点无法将未来的数据页转换为所需的数据页,因此需要在主节点将数据写入共享存储时考虑所有只读节点的回放情况,从而避免只读节点读取到未来页,这也是Buffer管理需要解决的主要问题。
术语
名词 | 说明 |
---|---|
Buffer Pool | 缓冲池,一种用来存储最常访问的数据的内存结构,通常以页为单位来缓存数据。PolarDB中每个节点都有自己的Buffer Pool。 |
LSN | Log Sequence Number,日志序列号,是WAL日志的唯一标识。LSN在全局是递增的。 |
Apply LSN | 回放位点,表示只读节点回放日志的位置,一般用LSN来标记。 |
Oldest Apply LSN最老回放位点 | 最老回放位点,表示所有只读节点中LSN最小的回放位点。 |
刷脏控制
- Buffer最近一次修改对应的LSN,即Buffer Latest LSN。
- 最老回放位点,所有只读节点中最小的回放位点,即Oldest Apply LSN。
if buffer latest lsn <= oldest apply lsn
flush buffer
else
do not flush buffer
一致性位点
一致性位点表示该位点之前的所有WAL日志修改的数据页均已经持久化到存储。主备节点之间,主节点向备节点发送当前WAL日志的写入位点和一致性位点,备节点向主节点发送当前回放的位点。由于一致性位点之前的WAL修改都已经写入共享存储,备节点无需再回放该位点之前的WAL日志。因此,可以将LogIndex中所有小于一致性位点的LSN清理掉,既加速回放效率,同时还能减少LogIndex占用的空间。
- FlushList
为了维护一致性位点,PolarDB为每个Buffer引入了一个内存状态,即第一次修改该Buffer对应的LSN,称之为Oldest LSN,所有Buffer中最小的Oldest LSN即为一致性位点。
一种获取一致性位点的方法是遍历Buffer Pool中所有Buffer,找到最小值,但遍历代价较大,CPU开销和耗时都很大。为高效获取一致性位点,PolarDB引入FlushList机制,将Buffer Pool中所有脏页按照Oldest LSN从小到大排序。借助FlushList,获取一致性位点的时间复杂度可以达到 O(1)。第一次修改Buffer并将其标记为脏页时,将该Buffer插入到FlushList中,并设置其Oldest LSN。Buffer被写入存储时,将该内存中的标记清除。
为高效推进一致性位点,PolarDB的后台刷脏进程(bgwriter)采用先被修改的Buffer先落盘的刷脏策略,即bgwriter会从前往后遍历FlushList,逐个刷脏,一旦有脏页写入存储,一致性位点就可以向前推进。如上图所示,如果Oldest LSN为10的Buffer落盘,一致性位点就可以推进到30。
- 并行刷脏为进一步提升一致性位点的推进效率,PolarDB实现了并行刷脏。每个后台刷脏进程会从FlushList中获取一批数据页进行刷脏。
热点页
引入刷脏控制之后,仅满足刷脏条件的Buffer才能写入存储。如果某个Buffer修改非常频繁,可能导致Buffer Latest LSN总是大于Oldest Apply LSN,该Buffer始终无法满足刷脏条件,此类Buffer称之为热点页。热点页会导致一致性位点无法推进,为解决热点页的刷脏问题,PolarDB引入了Copy Buffer机制。
Copy Buffer机制会将特定的、不满足刷脏条件的Buffer从Buffer Pool中拷贝至新增的Copy Buffer Pool中,Copy Buffer Pool中的Buffer不会再被修改,其对应的Latest LSN也不会更新,随着Oldest Apply LSN的推进,Copy Buffer会逐步满足刷脏条件,从而可以将Copy Buffer落盘。
- 如果Buffer不满足刷脏条件,判断其最近修改次数以及距离当前日志位点的距离,超过一定阈值,则将当前数据页拷贝至Copy Buffer Pool中。
- 下次再刷该Buffer时,判断其是否满足刷脏条件。如果满足,则将该Buffer写入存储并释放其对应的Copy Buffer。
- 如果Buffer不满足刷脏条件,则判断其是否存在Copy Buffer。若存在且Copy Buffer满足刷脏条件,则将Copy Buffer落盘。
- Buffer被拷贝到Copy Buffer Pool之后,如果对该Buffer进行修改,则会重新生成该Buffer的Oldest LSN,并将其追加到FlushList末尾。
Lazy Checkpoint
PolarDB引入的一致性位点概念,与checkpoint的概念类似。PolarDB中checkpoint位点表示该位点之前的所有数据都已经落盘,数据库Crash Recovery时可以从checkpoint位点开始恢复,提升恢复效率。普通的checkpoint会将所有Buffer Pool中的脏页以及其他内存数据落盘,这个过程可能耗时较长且在此期间I/O吞吐较大,可能会对正常的业务请求产生影响。
借助一致性位点,PolarDB引入了一种特殊的checkpoint:Lazy Checkpoint。之所以称之为Lazy,是与普通的checkpoint相比,Lazy Checkpoint不会把Buffer Pool中所有的脏页落盘,而是直接使用当前的一致性位点作为checkpoint位点,极大地提升了checkpoint的执行效率。