EDA上云最佳实践

更新时间:2022-01-27 08:58:09

本文介绍如何利用弹性高性能计算E-HPC解决EDA工具在IC设计过程中遇到的问题。

背景信息

IC(Integrated Circuit)设计依赖于IT(Information Technology)技术的支撑和服务,既包括EDA(Electronics Design Automation)工具的使用,也包括计算、存储、网络等基础设施。伴随芯片规模增长、设计复杂度提升、工艺尺寸缩小以及EDA工具持续优化的机器学习技术和敏捷方法学的变革,传统IT面临着算力暴涨与传统IT矛盾加剧、IT基础设施管理难度大、成本居高不下等问题,愈发难以满足IC设计的需求。

阿里云所提供的云上架构和功能全面适配和满足EDA业务和技术需求,具备长期支持的迭代能力。计算和存储资源规格性能优异,且在弹性扩容、资源灵活调度以及资源成本方面体现出显著的优势:

  • 一站式的高性能计算服务:E-HPC支持方便快捷地部署及配置集群环境、EDA软件及其他工具软件,支持LSF调度器,交互体验友好。

  • 强大的计算性能:符合EDA行业需求特点的裸金属服务器机型,不仅具备虚拟机的弹性,还保有物理机的性能无损、完整特性、高隔离性和高安全性。确保租户真正独占资源,充分满足客户对性能、稳定性以及数据安全和监管合规的业务诉求。

  • 优异的存储表现:阿里云的并行文件系统CPFS具有吞吐量高、网络延迟小、读写性能强的特点,尤其在超大规模小文件读写方面表现出强大的性能。

  • 数据安全保障:除裸金属服务器高隔离性的安全保障外,CPFS支持数据加密。

  • 弹性和高性价比:计算和存储等资源具备弹性扩容、按需使用、按量付费的良好特性,新资源投入生产的速度较快,有助于提升整体研发效率,最终缩短新产品面市时间。

  • 资源供给和保障能力突出:阿里云拥有强大的弹性调度能力和强大的供应链体系,能够为您提供充足的资源保障。

准备工作

本实践资源规划如下:

资源类型

产品

配置项

资源类型

产品

配置项

网络资源

专有网络VPC

  • 状态:新购

  • 地域:华东2(上海)

  • 名称:vpc-eda

  • 网段:192.168.0.0/16

虚拟交换机

  • 状态:新购

  • 可用区:华东2可用区B

  • 名称:vswitch-eda

  • 网段:192.168.0.0/24

弹性公网EIP

  • 状态:新购

  • 类型:按量付费

  • 名称:EIP

  • 带宽:50 Mbit/s

弹性计算资源

云服务器ECS

  • 可用区:华东2可用区B

  • 名称:image

  • 实例规格:ecs.c6.xlarge

  • 镜像:Centos 7.6 64

  • 系统盘:ESSD 40 GiB

弹性高性能计算E-HPC

  • 部署方式:精简

  • 计算节点:ecs.ebmc6.26xlarge,1

  • 登录节点:ecs.c7.4xlarge,1

  • 系统盘:Cloud_ESSD 40 GiB

  • 镜像:自定义镜像

  • 文件类型:CPFS

  • 调度器:用户自行安装

存储资源

文件存储CPFS

  • 支付类型:按量付费

  • 存储类型:200 MB/s/TiB基线

  • 容量:48,000 GiB

说明

本实践所用资源仅用于案例演示,实际使用过程中请根据需要进行合理规划。

操作流程

EDA上云实践的操作流程如下:

步骤一:搭建基础环境

步骤二:安装CPFS客户端

步骤三:创建自定义镜像

步骤四:部署E-HPC

步骤五:安装LSF插件(可选)

步骤一:搭建基础环境

  1. 登录云速搭CADT控制台

  2. 在页面左上方的菜单栏,选择新建 > 官方模板库新建

  3. 在页面右上方搜索框中搜索EDA上云模板,单击基于应用新建

    说明

    本实践使用的模板是根据准备工作中所列的资源项配置的。实际操作过程中,您可以根据需要,双击应用架构中的资源类型图标进行修改。

  4. 在创建完成的应用架构中双击ECS图标,填写ECS的登录密码并确认。

    说明

    E-HPC部署开关默认为关闭状态,需在制作好自定义镜像后开启部署开关并配置自定义镜像。

  5. 配置完成后,单击保存,在弹出的对话框中输入应用名称,单击确认

  6. 单击部署应用

    说明

    如果弹出属性校验报错校验失败的提示,请根据页面提示信息进行修正,完成后需要重新单击保存部署应用

  7. 校验和计价完成后,在确认订单页面,勾选《云速搭服务条款》并单击下一步:支付并创建

    资源部署状态页面下方显示部署成功,说明基础环境搭建成功。

  8. 返回应用架构页面,双击ECS实例image,记录私网IP地址(private_ip)以备后用。

  9. 确认CPFS挂载点状态并记录初始密码。

    1. 在应用架构中双击CPFS实例,单击前往控制台,进入NAS控制台

    2. 在左侧导航栏选择文件系统 > 文件系统列表

    3. CPFS文件系统挂载点状态为可用后,记录客户端管理节点的初始密码。

      说明

      CPFS文件系统由CADT创建,大约需要20分钟来完成挂载点的自动创建。

步骤二:安装CPFS客户端

  1. 设置CPFS管理节点访问规则。

    1. 登录ECS控制台

    2. 在左侧导航栏选择网络与安全 > 安全组

    3. 选择地域为华东2(上海)

    4. 安全组页面找到CPFS安全组,在操作列单击配置规则

    5. 手动添加一条入方向的访问规则,对Workbench IP地址段100.104.0.0/16开放22号端口的访问。访问规则

    6. 单击保存

  2. 远程登录CPFS客户端管理节点qr-001

    1. 登录ECS控制台

    2. 在左侧导航栏选择实例与镜像 > 实例

    3. 选择地域为华东2(上海)

    4. 实例页面选择CPFS管理节点ECS实例(实例名称以qr-001结尾),在操作列单击远程连接

    5. 选择Workbench远程连接,单击立即登录

    6. 输入已经获取的CPFS管理节点的root账号密码,单击确定

  3. 配置CPFS管理节点对客户端节点的免密钥登录。

    1. 确认CPFS管理节点的/etc/ssh/ssh_config文件中的如下配置。CPFS配置文件

    2. 执行以下命令,将公钥信息拷贝至制作自定义镜像的ECS实例。

      ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.198
      说明

      该步骤实现从CPFS管理节点到目标ECS(image)的免密登录。命令中的IP为前面步骤中已获取的ECS实例ecs-image的私网IP地址。

    3. 执行以下命令,测试免密登录。

      ssh root@192.168.0.96
      
      Welcome to Alibaba Cloud Elastic Compute Service !
    4. 测试成功后执行exit命令,返回CPFS管理节点。

  4. 记录CPFS管理节点的QuorumContact内容。

    1. 执行vim /etc/hosts命令。

    2. 获取除localhost记录以外的全部其他记录,以备后用。Quorum和Contact

  5. 远程登录用于制作镜像的ECS实例。

    1. 登录ECS控制台,选择地域为华东2(上海)

    2. 实例页面选择ECS实例(实例名称以image结尾),单击远程连接

    3. 选择Workbench远程连接,单击立即登录

    4. 输入在CADT中创建ECS时的root账号密码,单击确定

  6. 在用于制作镜像的ECS上安装CPFS客户端。

    1. /etc/hosts路径中添加CPFS管理节点的QuorumContact内容。

    2. 执行以下命令,下载并解压RPM包。

      mkdir /tmp/rpms
      cd /tmp/rpms
      wget https://gpfs-rpms.oss-cn-beijing.aliyuncs.com/CPFS2.2-CentOS.tar.gz
      tar xvfz CPFS2.2-CentOS.tar.gz
    3. 执行以下命令,安装CPFS客户端的依赖软件。

      yum install -y cpp gcc gcc-c++ binutils ksh elfutils elfutils-devel rpm-build
    4. 执行以下命令,安装CPFS客户端。

      cd CentOS/CentOS7/
      yum install -y gpfs.adv-*.x86_64.rpm gpfs.base-*.x86_64.rpm gpfs.docs-
      *.noarch.rpm gpfs.gpl-*.noarch.rpm gpfs.gskit-*.x86_64.rpm 
      gpfs.gss.pmsensors-*.x86_64.rpm gpfs.license.dm-*.x86_64.rpm 
      gpfs.msg.en_US-*.noarch.rpm
    5. 执行以下命令,构建系统。

      /usr/lpp/mmfs/bin/mmbuildgpl 
      说明

      当返回Building GPL module completed successfully...信息时,说明系统已构建成功。

步骤三:创建自定义镜像

  1. 登录ECS控制台,选择地域为华东2(上海)

  2. 在实例页面选择ECS实例(实例名称以image结尾),在操作列中,单击更多 > 云盘和镜像 > 创建自定义镜像

  3. 输入自定义镜像名称(ehpc-image)和自定义镜像描述,单击确认

  4. 进入控制台镜像页面,查看镜像创建进度。

    进度为100%时,说明已创建成功。

    说明

    本例的自定义镜像创建耗时约10分钟左右。

步骤四:部署E-HPC

  1. 登录云速搭CADT控制台

  2. 单击应用 > 我的应用,找到已部署的EDA上云应用,单击编辑架构图

  3. 切换到编辑模式,双击ehpc图标后打开部署资源开关。部署开关

  4. E-HPC配置项中,镜像类型选择自定义镜像镜像选择已创建的ehpc-image,并输入E-HPC登录密码。

  5. 单击保存 > 部署应用,根据页面提示完成部署。

  6. 返回应用架构页面,双击ehpc图标,在资源清单中单击前往控制台

  7. 查看E-HPC集群运行状态是否正常。

    说明

    部署过程大约需要15分钟。

  8. 查看E-HPC集群架构。

    1. 单击资源清单

    2. E-HPC集群后面的操作列选择查看详情

      架构探查任务完成后,自动弹出集群架构图。

      说明

      您可以在集群架构图页面右侧查看资源列表,也可导出架构图和资源清单。

步骤五:安装LSF插件(可选)

EDA业务场景下,由于LSF调度器需要付费购买License,本实践中E-HPC未集成该调度器。您可根据提供的插件模版及配置文件,自定义调度器并以插件的形式在E-HPC控制台创建集群,从而提供对应的节点管理、作业管理及自动伸缩等能力。

  1. 执行如下命令构建插件目录结构。

    mkdir -p /plugin/LSF/10.1.0
  2. 下载插件模版及配置文件。

    cd /plugin
    wget https://public-ehpc-package.oss-cn-
    hangzhou.aliyuncs.com/plugintemplate/ehpc_custom.conf
    wget -P /plugin/LSF/10.1.0 https://public-ehpc-package.oss-cn-
    hangzhou.aliyuncs.com/plugintemplate/plugin_template.tar.gz
  3. 根据实际需要编辑配置文件。

    根据调度器插件结构及接入模式配置调度器信息;根据需求及功能实现将支持的功能设置为True,不支持的功能设置为False

    vim ehpc_custom.conf
  4. 解压插件模板。

    cd /plugin/LSF/10.1.0
    tar xvfz /plugin/LSF/10.1.0/plugin_template.tar.gz
  5. 根据插件模版自定义调度器功能实现。

    例如下图红框部分为节点调度服务检测的功能实现,系统根据当前不同的节点类型自定义返回状态。

    • 对于计算节点和登录节点角色,在调度服务检测实现中直接返回True表示检测通过。

    • 对于管理节点角色来说,需要检测LSF服务是否在节点上正常运行来返回最终的检测结果。自定义lsf插件

  • 本页导读 (1)
  • 背景信息
  • 准备工作
  • 操作流程
  • 步骤一:搭建基础环境
  • 步骤二:安装CPFS客户端
  • 步骤三:创建自定义镜像
  • 步骤四:部署E-HPC
  • 步骤五:安装LSF插件(可选)