通过E-HPC Instant部署AlphaFold3 Portal,可在云端基于WebPortal可视化执行蛋白质结构预测,按需使用GPU算力并在线查看结果。
业务场景
AlphaFold3的蛋白质结构预测依赖大量GPU算力,单次预测耗时从数十分钟到数十小时不等。自建GPU环境需要采购硬件、配置驱动和部署软件,周期长且利用率低。
E-HPC Instant提供AlphaFold3 Portal公共应用,已集成运行环境、参考数据集和Web管理界面,部署后即可使用。计算资源按秒计费,空闲时停止实例即停止计费。
方案架构
E-HPC Instant 架构说明:在 Instant 控制台完成部署后,可通过以下方式访问和管理服务。
Portal Web 界面:通过 EIP 访问,用于提交预测作业。
SSH 登录:直接登录实例,管理文件和服务。
计算资源调度:E-HPC Instant 提供应用中心和镜像中心。提交预测作业后,系统自动在VPC内调度GPU作业节点(支持A10、L20等规格)执行计算。
数据存储与共享:作业数据通过 NAS 在 Portal 节点和作业节点之间共享,输入文件和预测结果均存储在 NAS 上。
模型参数需要从Google DeepMind官方仓库下载并上传至NAS。
行业典型数据集:涵盖生物制药行业Pipeline所依赖的公开参考数据集,提升科研用户的业务流适配执行效率。
本实践中主要涉及Alphafold3运行所依赖的参考数据集(Reference Data)。
部署Portal应用
在E-HPC Instant控制台完成以下配置后,即可通过浏览器访问Portal Web服务。
AlphaFold3 Portal应用当前通过白名单开放,如需使用请提交工单申请开通。提交工单时需提供UID和地域信息。
步骤一:选择应用
登录E-HPC Instant控制台(开通权限请参见什么是弹性高性能计算E-HPC)。在左侧导航栏单击应用市场,找到公共应用Alphafold_Portal,单击立即部署。
步骤二:配置基本信息
地域在控制台顶部导航栏选择,不在部署表单内。
设置应用实例名称(可保留默认)和Portal登录密码。密码要求8~20个字符,至少包含大写字母、小写字母、数字、特殊符号中的三种。
步骤三:配置网络与安全组
专有网络选择已有VPC,交换机选择该VPC下的交换机。若无可用VPC,单击创建专有网络前往VPC控制台创建。建议选择较新可用区,GPU实例规格更丰富。
若下拉列表未显示新创建的资源,单击下拉框右侧的刷新按钮。
确认安全组已开放TCP 12011入方向规则,授权对象设为实际办公网IP段。该端口用于浏览器访问Portal。
节点弹性公网选择是,为节点分配EIP以支持外部访问。
步骤四:配置GPU计算资源
调度策略保持默认标准型。
算力模式切换为指定规格,在实例规格选择器筛选GPU实例,根据预测任务的规模选择合适的规格。
推荐的GPU规格为T4、A10和L20。
单节点存储空间默认40 GB,按需调整。
步骤五:配置NAS共享存储
挂载目录填写
/mnt。类型选择通用型NAS。
文件系统选择已有NAS文件系统。若无可用文件系统,单击创建文件系统新建。
文件系统目录填写
/挂载根目录。挂载点必须与当前VPC匹配。若无可用挂载点,需在NAS控制台为该VPC创建挂载点(选择相同VPC和交换机,权限组选择VPC默认权限组)。
NAS建议预留至少60 GB空间(模型参数约8 GB加预测结果存储)。
步骤六:配置应用服务凭证
Portal通过AccessKey调度和管理计算资源。在应用服务配置区域填写AccessKey和AccessKey Secret。
出于安全考虑,建议使用RAM用户的AccessKey,并仅授予E-HPC相关权限。
步骤七:提交部署并验证访问
确认配置后单击提交,页面自动跳转到运行中的应用。
等待应用状态从等待中变为运行中(约5~10分钟)。
单击实例的应用服务信息下方链接,打开应用页面,输入用户名
root和部署时设置的密码完成登录。若无法访问,检查安全组是否已开放TCP 12011端口。若登录失败,确认密码是否正确。
上传模型参数到NAS
AlphaFold3预测依赖约1~2 GB的模型参数文件,需提前下载并上传至NAS。参考数据集已预置在应用中(路径/data/af3_databases),无需额外准备。
从Google DeepMind官方仓库下载模型参数文件。
在运行中的应用页面,单击实例的连接登录,填写用户名
root和密码打开Workbench终端。在终端左侧面板单击文件管理,进入
/mnt目录,通过上传文件将模型参数压缩包上传到NAS。在终端中执行以下命令,创建目录结构并解压模型文件:
cd /mnt mkdir -p af3data/af3_models af3data/af_input af3data/af_output chmod 777 af3data/af_output zstd -d af3.bin.zst -o af3.bin # 根据实际文件格式解压到目标目录 mv af3.bin af3data/af3_models/重要输出目录
af_output必须具有写入权限(chmod 777),否则作业无法保存结果。
配置Portal并提交预测作业
首次配置Portal参数
Portal首次使用前需完成一次作业参数配置。配置保存后,后续提交作业时自动复用。登录Portal后,单击右上角应用配置,依次完成以下5步:
目录挂载:挂载目录填写
/mnt,NAS挂载点选择与部署时相同的挂载点。作业目录:各字段默认值已预填,通常无需修改。
输入文件夹:
/mnt/af3data/af_input输出文件夹:
/mnt/af3data/af_output模型文件夹:
/mnt/af3data/af3_models数据集文件夹:
/data/af3_databases
调度及网络:VPC、交换机和安全组选择与部署时一致。
计算配置:应用镜像选择Alphafold3:vCommunity-v1.0。
任务资源:实例规格选择GPU实例(如ecs.gn6i-c4g1.xlarge),磁盘大小默认40 GB。配置完成后单击保存。
提交预测作业
在Portal主页的提交作业区域,将JSON格式的输入数据粘贴到文本框中。以下为一个双链蛋白质复合物的输入示例:
{
"name": "2PV7",
"sequences": [
{
"protein": {
"id": ["A", "B"],
"sequence": "GMRESYANENQFGFKTINSDIHKIVIVGGYGKLGGLFARYLRASGYPISILDREDWAVAESILANADVVIVSVPINLTLETIERLKPYLTENMLLADLTSVKREPLAKMLEVHTGAVLGLHPMFGADIASMAKQVVVRCDGRFPERYEWLLEQIQIWGAKIYQTNATEHDHNMTYIQALRHFSTFANGLHLSKQPINLANLLALSSPIYRLELAMIGRLFAQDAELYADIIMDKSENLAVIETLKQTYDEALTFFENNDRQGFIDAFHKVRDWFGDYSEQFLKESRQLLQQANDLKQG"
}
}
],
"modelSeeds": [1],
"dialect": "alphafold3",
"version": 1
}各字段说明:
name:任务标识。sequences:定义蛋白质链ID和氨基酸序列。多链时在id数组中列出各链标识。modelSeeds:控制预测随机种子,增加种子数量可提高结果多样性。dialect和version:固定值,分别为alphafold3和1。
单击提交作业,在确认对话框中核对信息后单击确认提交。提交成功后作业出现在列表中,状态为等待中或运行中。
查看预测结果
作业完成后,在Portal主页单击作业名称进入详情页。详情页包含三个标签页:
基础信息:显示作业ID、状态和网络配置。
作业日志:实时执行日志,可观察模型加载和预测进度。
应用信息:作业完成后显示序列信息、pLDDT置信度分析和3D结构可视化。
输出文件与质量评估
预测完成后,输出目录包含以下文件:
蛋白质结构文件(*_model_*.cif,mmCIF格式)
置信度评分文件(*_summary_confidences_*.json)
完整预测数据文件(*_full_data_*.json)
模型排名文件(ranking_scores.csv)
在Portal详情页可下载结果包,也可通过SSH登录实例在/mnt/af3data/af_output目录直接访问。
管理实例生命周期
在控制台应用市场 > 运行中的应用页面管理Portal实例。
停止与启动实例
实例空闲时,单击停止释放计算资源。停止后GPU/CPU/内存不再计费,NAS存储、块存储和EIP仍按量计费。
恢复使用时单击启动,等待状态变为运行中(约3~5分钟)即可继续使用。NAS数据和Portal配置均保持不变。
删除实例
单击删除永久移除应用实例。计算节点和Portal服务配置将不可恢复,NAS中的数据不受影响。如仅需暂停计费,使用停止功能即可。
删除操作不可恢复。执行前确认已停止所有运行中的作业,并已备份所需结果。