配置内存缓存加速读取本地挂载的模型文件-人工智能平台 PAI-阿里云

模型推理时，通过OSS或NAS挂载模型文件到本地目录，受网络带宽影响，存在延时问题。EAS提供本地目录内存缓存加速功能。将模型文件缓存到内存中，提高读取速度，减少延时。本文介绍如何配置本地目录内存缓存及其加速效果。

背景信息

在大部分模型推理场景中，业务进程会通过OSS、NAS或Image将模型文件挂载到本地目录。请参见服务存储挂载。业务进程中模型读取、模型切换、容器的扩缩容等操作都会受网络带宽影响。比较典型的如StableDiffusion场景中，推理请求会涉及到频繁切换基础模型和lora模型，每次切换都需从OSS/NAS回源读取模型，导致延时增加。

为了解决这个问题，EAS提供了本地目录内存缓存（Memory Cache）加速功能。具体的实现原理如下图所示：

利用空闲内存将本地目录中的模型文件缓存到内存中。
该缓存支持LRU淘汰策略和实例间共享，以文件系统目录形式呈现。
无需修改业务代码，直接读取缓存配置的目标本地目录中的文件，即可享受加速效果。
同一服务的不同实例会形成p2p网络，实例扩容时可通过p2p网络就近读取缓存文件，加速扩容速度。

注意事项

为保持数据一致性，挂载的加速目录是只读的，无法写操作。
如需添加模型文件，请在源目录中新增文件，加速目录会读取源目录中的文件。
不建议直接更新或删除源目录中的模型文件，这可能导致读取到缓存的脏数据。

配置方法

下面以Stable Diffusion场景为例，当前服务部署已有配置的参数如下：

镜像启动命令：./webui.sh --listen --port 8000 --skip-version-check --no-hashing --no-download-sd-model --skip-prepare-environment --api --filebrowser
模型文件OSS路径：oss://path/to/models/
模型文件挂载到容器中的目录：/code/stable-diffusion-webui/data-slow

那么/code/stable-diffusion-webui/data-slow就是需要被加速的文件的源目录，先将其再次挂载到加速目录/code/stable-diffusion-webui/data-fast。这样，业务程序可以直接从加速目录/code/stable-diffusion-webui/data-fast读取源目录/code/stable-diffusion-webui/data-slow中的加速文件，具体配置方式如下：

控制台配置

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
单击部署服务，然后在自定义模型部署区域，单击自定义部署。

在自定义部署页面，配置以下关键参数，其他参数配置说明，请参见控制台自定义部署参数说明。

参数		描述	示例
环境信息	模型配置	选择OSS类型的挂载方式。	Uri：`oss://path/to/models/` 挂载路径：`/code/stable-diffusion-webui/data-slow`
环境信息	运行命令	您需要根据自己部署的镜像或者自己写的代码来调整启动参数。	对于Stable Diffusion的服务，需要在启动命令中增加参数`--ckpt-dir`，指向加速目录： `./webui.sh --listen --port 8000 --skip-version-check --no-hashing --no-download-sd-model --skip-prepare-environment --api --filebrowser --ckpt-dir /code/stable-diffusion-webui/data-fast`
服务功能	内存缓存加速	打开开关，并配置以下参数：占用最大内存：被加速文件占用的最大内存，单位GB。被加速文件占用的最大内存，超过限制时采用LRU策略淘汰。源路径：加速文件的源目录，可以是OSS或NAS中的加速文件挂载到容器中的挂载路径，也可以是挂载路径下的子目录，或者是容器内的其他普通文件目录。挂载路径：加速文件的挂载目录，业务程序需从该目录中读取模型。	占用最大内存：20 GB 源路径：`/code/stable-diffusion-webui/data-slow` 挂载路径：`/code/stable-diffusion-webui/data-fast`

参数配置完成后，单击部署。

本地客户端配置

1. 准备配置文件。配置示例如下。

   {
    "cloud": {
        "computing": {
            "instances": [
                {
                    "type": "ml.gu7i.c16m60.1-gu30"
                }
            ]
        }
    },
    "containers": [
        {
            "image": "eas-registry-vpc.cn-hangzhou.cr.aliyuncs.com/pai-eas/stable-diffusion-webui:4.2",
            "port": 8000,
            "script": "./webui.sh --listen --port 8000 --skip-version-check --no-hashing --no-download-sd-model --skip-prepare-environment --api --filebrowser --ckpt-dir /code/stable-diffusion-webui/data-fast"
        }
    ],
    "metadata": {
        "cpu": 16,
        "enable_webservice": true,
        "gpu": 1,
        "instance": 1,
        "memory": 60000,
        "name": "sdwebui_test"
    },
    "options": {
        "enable_cache": true
    },
    "storage": [
        {
            "cache": {
                "capacity": "20G",
                "path": "/code/stable-diffusion-webui/data-slow"
            },
            "mount_path": "/code/stable-diffusion-webui/data-fast"
        },
        {
            "mount_path": "/code/stable-diffusion-webui/data-slow",
            "oss": {
                "path": "oss://path/to/models/",
                "readOnly": false
            },
            "properties": {
                "resource_type": "model"
            }
        }
    ]
}

内存缓存加速相关参数说明如下，其他参数配置说明，请参见JSON部署参数说明。

参数		描述
script		您需要根据自己部署的镜像或者自己写的代码来调整启动参数。对于Stable Diffusion的服务，配置启动参数`--ckpt-dir`，并将该参数指向加速目录。
cache	capacity	被加速文件占用的最大内存，单位GB。被加速文件占用的最大内存，超过限制时采用LRU策略淘汰。
	path	加速文件的源目录。该目录可以是OSS或NAS中的加速文件挂载到容器中的挂载路径，也可以是挂载路径下的子目录，或者是容器内的其他普通文件目录。
mount_path		加速文件的挂载目录，该目录内的文件内容和源目录保持一致，业务程序需从该目录中读取模型。

部署模型服务，使其能够使用本地目录内存缓存加速的功能。

通过控制台部署模型服务

登录PAI控制台，在页面上方选择目标地域，并在右侧选择目标工作空间，然后单击进入EAS。
在模型在线服务（EAS）页面，单击部署服务，然后在自定义模型部署区域，单击JSON独立部署。将步骤一准备好的配置内容粘贴到编辑框中。
单击部署。

通过EASCMD客户端部署模型服务

下载EASCMD客户端并进行身份认证。具体操作，请参见下载并认证客户端。
按照步骤一中的配置要求，在EASCMD客户端所在目录创建一个名为test.json的JSON文件。
在JSON文件所在的当前目录执行以下命令，以Windows 64版本为例。
```
eascmdwin64.exe create <test.json>
```

加速效果

以Stable Diffusion场景为例，模型切换的加速效果如下，单位：秒。您的最终的加速效果以实际情况为准。

模型	模型大小	OSS挂载	Cachefs本地命中	Cachefs远端命中
anything-v4.5.safetensors	7.2G	89.88	3.845	15.18
Anything-v5.0-PRT-RE.safetensors	2.0G	16.73	2.967	5.46
cetusMix_Coda2.safetensors	3.6G	24.76	3.249	7.13
chilloutmix_NiPrunedFp32Fix.safetensors	4.0G	48.79	3.556	8.47
CounterfeitV30_v30.safetensors	4.0G	64.99	3.014	7.94
deliberate_v2.safetensors	2.0G	16.33	2.985	5.55
DreamShaper_6_NoVae.safetensors	5.6G	71.78	3.416	10.17
pastelmix-fp32.ckpt	4.0G	43.88	4.959	9.23
revAnimated_v122.safetensors	4.0G	69.38	3.165	3.20

当缓存中没有对应的模型时，Cachefs会自动回源读取模型。如该文件通过OSS挂载，则Cachefs会从OSS拉取文件。
服务内的多个实例会形成内存共享集群，加载相同模型时直接从远端内存拉取，读取时间与文件大小呈线性相关。
服务扩容时，新实例会加入内存共享集群，初始化模型可直接从远端读取，弹性扩缩容更快，适合弹性场景。