AlphaFold2是DeepMind制造的深度学习模型,用于蛋白质结构预测。本文介绍了通过阿里云ehpc Nvidia GPU规格和计算巢快速部署AlphaFold2。
前提条件
部署AlphaFold2社区版服务实例,需要对部分阿里云资源进行访问和创建操作。因此您的账号需要包含如下资源的权限。
当您的账号是RAM账号时,才需要添加此权限。
权限策略名称 | 备注 |
AliyunECSFullAccess | 管理云服务器服务(ECS)的权限 |
AliyunEHPCFullAccess | 管理弹性高性能计算(EHPC)的权限 |
AliyunNASFullAccess | 管理文件存储(NAS)的权限 |
AliyunVPCFullAccess | 管理专有网络(VPC)的权限 |
AliyunROSFullAccess | 管理资源编排服务(ROS)的权限 |
AliyunComputeNestUserFullAccess | 管理计算巢服务(ComputeNest)的用户侧权限 |
计费说明
AlphaFold2社区版在计算巢部署的费用主要涉及:
弹性高性能计算集群(EHPC)费用
文件系统(NAS)费用
流量带宽费用
部署架构
部署由一个ehpc集群组成,EHPC集群中包括1台manager节点和多台compute节点。
manager和compute节点都部署在ECS上,其中compute节点包含gpu卡。
服务使用nas-cpfs构建高性能共享文件系统。
参数说明
参数项 | 说明 |
服务实例名称 | 长度不超过64个字符,必须以英文字母开头,可包含数字、英文字母、短划线(-)和下划线(_)。 |
地域 | 服务实例部署的地域。 |
付费类型 | 资源的计费类型:按量付费和包年包月。 |
集群登录密码 | 长度8-30,必须包含三项(大写字母、小写字母、数字、 ()`~!@#$%^&*-+=|{}[]:;'<>,.?/ 中的特殊符号)。 |
Ehpc部署模式 | Tiny,Simple,Standard。 |
计算节点实例类型 | 可用区下可以使用的计算节点规格。 |
计算节点数量 | 计算节点数量, 可选值:1-99。 |
登录节点实例类型 | 可用区下可以使用的登录节点规格。 |
管控节点数量 | 管控节点数量, 可选值:1,2,4。 |
登录用户名 | 软件登录的用户名。 |
登录用户密码 | 长度8-30,必须包含三项(大写字母、小写字母、数字、 ()`~!@#$%^&*-+=|{}[]:;'<>,.?/ 中的特殊符号)。 |
可用区 | ECS实例所在可用区。 |
VPC ID | 资源所在的VPC。 |
交换机ID | 资源所在的交换机。 |
部署流程
访问计算巢AlphaFold2社区版部署链接,按提示填写部署参数。
参数填写完成后可以看到对应询价明细,确认参数后点击下一步:确认订单。
确认订单完成后同意服务协议并单击立即创建,进入部署阶段。部署会用时几个小时,下载数据会比较慢,下载输出的日志存放在/root/download.log中。
等待下载数据完毕后就可以开始使用服务。可以到CASP14中拷贝T1050的示例数据存放到/home/alphafold/T1050.fasta中,通过ehpc控制台ssh登录,输入用户名密码登录。
然后到ehpc控制台任务管理执行命令。
-- /usr/bin/python3 /home/share/alphafold/docker/run_docker.py --fasta_paths=/home/alphafold/T1050.fasta --max_template_date=2020-05-14 --data_dir=/home/data --docker_image_name=alphafold:latest --output_dir=/home/alphafold
查看ehpc任务状态等待几个小时后发现 /home/alphafold/目录生成了对应的日志(T1050.e1)和结果(T1050文件夹),进入T1050文件夹拷贝出rank_0.pdb。
在蛋白质结构预测结果网站中打开rank_0.pdb,会看到对应的蛋白质结构。