MemVerge Memory Machine是全球第一个大内存软件。它可以将DRAM和PMEM进行虚拟化,实现无需更改代码即可访问新的PMEM内存介质,以提供实时分析和AI/ML应用程序所需的大规模内存容量。同时提供了业内第一个企业级的内存数据服务,实现对高可用内存的企业级数据服务,支持宕机恢复的快照和复制功能。本文介绍部署MemVerge服务实例的详细信息。
使用说明
本文介绍了部署MemVerge服务实例的整体流程。
-
登录阿里云账号,若您是通过RAM账号登录,请检查RAM账号权限。
若缺少权限请登录主账号或者有RAM管理权限的账号添加。详细操作,请参见RAM账号所需权限。
-
一键为EHPC产品授予访问您云资源的权限。
为EHPC产品授权的详细操作,请参见授予弹性高性能集群(EHPC)访问权限。
-
进入计算巢控制台,在推荐服务中找到Memory Machine-ehpc版,点击创建服务实例进入部署页面,或者从服务商处获取部署链接进入部署页面,填写相应参数。
填写服务实例详细参数的具体信息,请参见MemVerge服务实例部署说明。
-
资源部署完成后,您可以通过公网IP访问应用GUI,并通过命令行检查计算节点服务是否正常启动。
测试MemVerge Memory Machine的详细操作,请参见测试MemVerge Memory Machine。
-
联系服务商获取并激活许可证,激活后登录软件进行使用。
使用MemVerge Memory Machine的详细信息,请参见使用MemVerge Memory Machine。

RAM账号所需权限
MemVerge服务需要对部分阿里云资源进行访问和创建操作,若您使用RAM账号创建服务实例,则需要在创建服务实例前,确认该RAM账号是否包含下表中的权限。查看RAM用户权限的详细操作,请参见查看RAM用户的权限。
若缺少权限,请登录阿里云主账号或者有RAM管理权限的账号添加权限后,再部署服务实例。添加RAM权限的详细操作,请参见管理RAM用户的权限。
|
权限策略名称 |
备注 |
|
AliyunNASFullAccess |
管理文件存储服务(NAS)的权限 |
|
AliyunECSFullAccess |
管理云服务器服务(ECS)的权限 |
|
AliyunVPCFullAccess |
管理专有网络(VPC)的权限 |
|
AliyunEHPCFullAccess |
管理弹性高性能计算(EHPC)的权限 |
授予弹性高性能集群(EHPC)访问权限
部署服务实例前,请使用阿里云主账号登录弹性高性能集群(EHPC)的云资源访问授权页面,单击同意授权。授权后,弹性高性能集群(EHPC)将获取对您云资源相应的访问权限。
若您未授予访问权限,创建弹性高性能集群(EHPC)时,会报无权限的错误导致服务实例部署失败。
授权后,系统将自动创建名为 AliyunEHPCDefaultRole 的服务角色。
MemVerge服务实例部署说明
-
登录计算巢控制台,在服务目录页的服务目录页签中,找到Memory Machine-ehpc版服务。
-
单击云市场购买,进入云市场页面,选择套餐版本和购买时长后,单击立即购买。按照流程指引填写相关参数,完成服务实例部署。
服务实例部署完成后,服务器资源和软件一起生成。
部署参数说明
您在创建服务实例的过程中,需要配置服务实例信息,下表介绍MemVerge服务实例部署需要配置的详细参数及注意事项。
|
名称 |
类型 |
是否必填 |
默认值 |
可选值 |
说明 |
|
地域 |
String |
是 |
华东1(杭州) |
华北2(北京)、华北3(张家口)、华东1(杭州)、华东2(上海) |
资源所在的区域,目前只支持带有re6p系列机型的地域。 |
|
集群名称 |
String |
是 |
无 |
无 |
EHPC集群的名称。长度为2-64个字符。 |
|
集群登录密码 |
String |
是 |
无 |
无 |
集群的访问密码。长度为8-30个字符,且必须包含三项(大写字母、小写字母、数字、 ()`~!@#$%^&*_-+=|{}[]:;'<>,.?/ 中的特殊符号)。 |
|
Ehpc部署模式 |
String |
是 |
Tiny |
Tiny Sample Standard |
Ehpc部署模式包含三种模式。其中Tiny模式下,计算节点配置中包含登录节点和计算节点的信息,需要单独配置一个管控节点。 其他模式下有专用登录节点、计算节点和管控节点。 |
|
计算节点实例类型 |
String |
是 |
无 |
ecs.re6p.large ecs.re6p.xlarge ecs.re6p.2xlarge ecs.re6p.4xlarge ecs.re6p.13xlarge |
仅支持持久内存型re6p系列的实例,推荐配置为ecs.re6p.xlarge。 |
|
计算节点数量 |
Number |
是 |
1 |
1-99 |
计算节点的实例数量。
|
|
登录节点实例类型 |
String |
是 |
无 |
所有ECS可用实例类型 |
登录节点的实例类型,通常对机器配置要求较低,选择满足需求即可。 部署模式为Tiny模式时,无此选项。 |
|
登录节点数量 |
Number |
是 |
1 |
1-8 |
登录节点的实例数量。 部署模式为Tiny模式时,无此选项。 |
|
管控节点实例类型 |
String |
是 |
无 |
所有ECS可用实例类型 |
管控节点的实例类型。 |
|
管控节点数量 |
Number |
是 |
1 |
1-8 |
管控节点的实例类型。 |
|
系统盘类型 |
String |
是 |
无 |
ESSD云盘 高效云盘 SSD盘 |
选择系统盘的类型。 |
|
系统盘大小 |
Number |
是 |
40 GB |
无 |
选择系统盘的大小,单位为GB。 |
|
OSTag |
String |
是 |
CentOS_7.6_64 |
CentOS_7.6_64 CentOS_7.9_64 |
自定义镜像。 |
|
调度器类型 |
String |
是 |
Pbs |
Pbs slurm |
调度器类型,当前仅支持pbs和slurm两种类型。 |
|
域账户服务类型 |
String |
是 |
Nis |
Nis ldap |
域账户服务类型, 当前仅支持nis和ldap两种类型。 |
|
可用区 |
String |
是 |
无 |
无 |
选择新建ECS实例的可用区。 |
|
交换机ID |
String |
是 |
无 |
无 |
选择现有网络交换机的实例ID。 |
|
付费类型 |
String |
是 |
按量付费 |
按量服务 预付费(包年包月) |
选择服务实例的付费类型。 |
|
文件系统类型 |
String |
是 |
standard |
standard extreme |
选择NAS文件系统。 |
|
文件系统协议类型 |
String |
是 |
nfs |
nfs nfs3 nfs4 |
选择文件系统协议的类型。 |
|
文件系统ID |
String |
是 |
无 |
无 |
选择NAS实例ID。 |
|
挂载点 |
String |
是 |
无 |
无 |
选择NAS挂载点。 |
测试MemVerge Memory Machine
服务实例部署完成后,MemVerge Memory Machine也会自动完成安装部署。您需要测试Memory Machine服务的GUI和计算节点是否正常启动。测试方法如下:
-
测试GUI是否正常启动
您可以使用如下两种方式中的任意一种进行测试。
-
登录阿里云弹性高性能计算控制台,找到MemVerge部署集群的公网IP地址,通过http://公网IP:8081链接访问8081端口,若能正常启动GUI登录页面,则表示GUI已经正常启动;若未正常启动,则可以通过support@memverge.com联系MemVerge服务商,寻找技术支持。在集群详情页的基本信息区域,找到公网IP字段,复制该IP地址,在浏览器中访问以测试GUI是否正常启动。
-
在计算巢控制台,找到部署的服务实例,进入服务实例详情页,单击VisitUrl后的IP地址,打开Memory Machine Management Center界面。若能正常启动GUI登录页面,则表示GUI已经正常启动;若未正常启动,则可以通过support@memverge.com联系MemVerge服务商,寻找技术支持。
-
-
测试计算节点服务是否正常启动
-
登录阿里云弹性高性能计算控制台,单击集群页右上方的远程连接。
-
在弹出的远程连接弹框中,输入集群用户名、登录密码和端口信息后单击SSH连接,进入命令行工具mvmcli。
集群用户名为root,登录密码为部署过程中设置的集群密码,端口默认填写22。
-
在阿里云弹性高性能控制台左侧导航栏,选择。
-
在集群框中,选择您创建的集群名称,在节点类型框中,选择计算节点。
-
在节点列表中,获取节点的IP地址,在命令行工具中运行ssh root@私网 IP,登录计算节点。
-
登录计算节点后,先输入
/usr/local/share/memverge/sbin/mvmcli show-usage命令,执行后,再输入systemctl status mvmallocd命令。查看执行结果。执行结果如下所示,表示服务正常启动。若 Managed PMEM(MiB) 的 Total 值大于 0,表示 PMEM 设备启动成功;若 mvmallocd 服务状态为 active,表示服务正常启动。示例输出:
[root@compute000 ~]# /usr/local/share/memverge/sbin/mvmcli show-usage Invalid license, PMEM allocator disabled Managed DRAM(MiB): Total 0.00, Used 0.00 (0.00) Managed PMEM(MiB): Total 31622.00, Used 4.00 (0.01) [root@compute000 ~]# systemctl status mvmallocd ● mvmallocd.service - MemVerge Memory Engine Loaded: loaded (/etc/systemd/system/mvmallocd.service; enabled; vendor preset: disabled) Active: active (exited) since Tue 2022-06-21 15:18:19 CST; 54min ago Main PID: 2607 (code=exited, status=0/SUCCESS) Tasks: 3 Memory: 4.0K CGroup: /system.slice/mvmallocd.service └─2610 /usr/local/share/memverge/sbin/mvmallocd --config=/etc/memverge/mvmallocd.yml Jun 21 15:18:19 compute000 systemd[1]: Starting MemVerge Memory Engine... Jun 21 15:18:19 compute000 mvmallocd[2603]: mvmallocd [ALERT] License is invalid. DPME is in read-only mode. Please upload a valid license. Jun 21 15:18:19 compute000 bash[2594]: Failed to load license from /etc/memverge/license.lic: LicenseError::LICENSE_FILE_OPEN_FAILED Jun 21 15:18:19 compute000 systemd[1]: Started MemVerge Memory Engine. Jun 21 16:13:03 compute000 mvmallocd[2610]: mvmallocd [ALERT] Unable to load license from /etc/memverge/license.lic.若Pmem显示为0,或者出现以下结果时,表示服务未成功启动。请通过support@memverge.com联系MemVerge服务商,寻找技术支持。
[root@compute000 ~]# systemctl status mvmallocd ● mvmallocd.service - MemVerge Memory Engine Loaded: loaded (/etc/systemd/system/mvmallocd.service; enabled; vendor preset: disabled) Active: inactive (dead) since Tue 2022-06-21 16:23:57 CST; 1s ago Main PID: 2607 (code=exited, status=0/SUCCESS) Jun 21 15:18:19 compute000 systemd[1]: Starting MemVerge Memory Engine... Jun 21 15:18:19 compute000 mvmallocd[2603]: mvmallocd [ALERT] License is invalid. DPME is in read-o Jun 21 15:18:19 compute000 bash[2594]: Failed to load license from /etc/memverge/license.lic: Licen Jun 21 15:18:19 compute000 systemd[1]: Started MemVerge Memory Engine. Jun 21 16:13:03 compute000 mvmallocd[2610]: mvmallocd [ALERT] Unable to load license from /etc/memv Jun 21 16:23:57 compute000 systemd[1]: Stopping MemVerge Memory Engine... Jun 21 16:23:57 compute000 systemd[1]: Stopped MemVerge Memory Engine.
-
使用MemVerge Memory Machine
测试通过后,您可以通过support@memverge.com邮箱或访问MemVerge联系MemVerge服务商。服务商的售前工程师会收集您的机器信息,协助您登录并激活Memory Machine Management Center的License。
激活Memory Machine Management Center后,您就可以登录查看资源情况和使用软件。
登录 Memory Machine Management Center 后,在 Hosts 面板的 Active 页签下,可查看各主机的运行状态,包括主机名(如 compute000、compute001、compute002)、告警数量及 CPU 使用率等资源信息。