本文介绍如何使用E-HPC集群运行WRF软件进行气象模拟计算。
背景信息
WRF(Weather Research and Forecasting model)是一款采用先进中尺度数值模式的开源气象模拟软件,广泛应用于气象行业。它不仅支持广泛的大气过程研究和模拟,包括历史数据再现和未来天气预报,而且能够在多种计算平台上运行。更多信息,请参见WRF官网。
本文以2019年感恩节前的美国冬季风暴事件为例,使用WRF模型进行了12公里空间分辨率的模拟。分析和研究了降水、温度、风速等关键气象要素,并展示了它们在特定12小时时间段内的变化和分布。
准备工作
选择以下任一方式创建一个E-HPC集群。
本文使用的集群配置示例如下:
配置项
配置
系列
标准版
部署模式
公共云集群
集群类型
SLURM
节点配置
包含1个管理节点、1个登录节点和4个计算节点,规格如下:
管理节点:采用ecs.c8ae.xlarge实例规格,该规格配置为4 vCPU,8 GiB内存。
登录节点:采用ecs.c8ae.xlarge实例规格,该规格配置为4 vCPU,8 GiB内存。
计算节点:采用ecs.c8ae.16xlarge实例规格,该规格配置为64 vCPU、128 GiB内存。
计算节点间使用eRDMA网络互联。
集群镜像ID
Alibaba Cloud Linux 2.1903 LTS 64位
创建集群用户。具体操作,请参见用户管理。
集群用户用于登录集群,进行编译软件、提交作业等操作,本文创建的用户示例如下:
用户名:testuser
用户组:sudo权限组
(条件必选)如果您是手动创建集群,则您需要安装
wrf-aocc
软件;否则,请跳过此步骤。具体操作,请参见安装和卸载集群软件。说明安装
wrf-aocc
软件至集群后,将自动触发安装所有其他必需的依赖软件。
步骤一:环境验证和配置
登录E-HPC Portal。具体操作,请参见登录E-HPC Portal。
在E-HPC Portal页面,单击页面右上角图标,通过Workbench远程连接集群。
执行以下命令,查看软件是否安装成功,以确保系统成功加载特定版本的环境。
module avail
系统返回信息如下所示:
配置conus12km算例。
执行以下命令,下载并解压算例文件。
cd ~ wget https://ehpc-perf.oss-cn-hangzhou.aliyuncs.com/yt710/WRFV4/input-data/v4.4_bench_conus12km.tar.gz tar -zxvf v4.4_bench_conus12km.tar.gz cd v4.4_bench_conus12km ln -s /opt/ehpc_common_softwares/nwp/wrf-aocc/4.4.2/aliyun/2/x86_64/run/* .
执行以下命令,下载并解压NCL编程语言。
cd ~ wget https://ehpc-perf.oss-cn-hangzhou.aliyuncs.com/AMD-Genoa/WRFV4/ncl_draw.tar.gz tar -zxvf ncl_draw.tar.gz
执行以下命令,修改
~/.bashrc
文件。vim ~/.bashrc
新增内容如下:
module load aocc/4.0.0 aocl/4.0.1 gcc/12.3.0 hdf5/1.10.5 libfabric/1.16.0 mpich-aocc/4.0.3 netcdf/4.8.0 szip/2.0.0 wrf-aocc/4.4.2 zlib/1.2.13 export NCARG_ROOT=~/ncl export PATH=$NCARG_ROOT/bin:$PATH
在四个计算节点上统一执行以下命令,安装NCL和ImageMagick。
说明您可以通过控制台快速发送命令执行。具体操作,请参见发送命令。
sudo yum install -y ncl ImageMagick
执行以下命令,创建文件名为
png2gif.sh
的作业执行文件。cd ~ vim png2gif.sh
步骤二:提交作业
在完成环境验证和配置后,请关闭Workbench对话框以继续下述步骤。
在顶部导航栏,选择任务管理。
在页面上方,单击submitter。
在创建作业页面,填写以下作业信息。
说明请注意以下配置,未提及的配置请保持默认。
基本参数
参数
示例
说明
作业名称
wrf-conus12
作业的名称。
如果需要自动下载解压作业文件,解压目录也将以作业名称进行命名。
输出文件
变量名:out
变量值:test.gif
作业的输出文件。
作业队列
comp
运行作业的队列。
如果计算节点已加入到指定队列中,则必须将作业提交到对应的队列,否则作业会执行失败;如果计算节点没有加入队列,则默认将作业提交到调度器所在的默认队列中。
执行命令
在线编辑
向调度器提交的作业执行命令,可以是脚本文件,也可以是一段命令文本。您可以通过以下三种方式提交:
在线编辑
本地文件
上传文件
计算节点数
4
用来运行此作业的计算节点数。
任务数
4
每个计算节点运行此作业使用的任务数,即进程数。
线程数
2
每个任务所使用的线程数,为空时线程数为1。
高级参数
参数
示例
说明
MPI性能剖析
开启MPI性能剖析
选择是否开启MPI性能剖析。
单击提交作业。
完成操作后,您可以看到状态为RUNNING的作业任务。
步骤三:查看作业详情
在作业列表区域,找到目标作业,单击操作列下的查看。
在作业详情页面,您可以查看作业的详细信息,如下图所示:
待作业任务完成后(状态为COMPLETED),单击输入输出文件页签,然后选择输出文件,查看作业运行结果。
GIF图片如下图所示:
步骤四:查看性能剖析
在顶部导航栏,选择性能管理,进入性能管理页面。
在性能剖析筛选区域,设置以下参数筛选性能剖析任务。
参数
说明
状态
选择剖析状态为已完成。
类型
选择MPI类型。
找到名称为
wrf-conus12
的任务,然后在左侧单击按钮,以查看性能剖析信息。关于更多参数指标说明,请参见查看性能剖析。