Data Science节点底层基于E-MapReduce(简称EMR)组件,支持阿里云机器学习平台团队提供的人工智能,包含了机器学习算法平台Alink、向量计算引擎FAISS、深度学习框架TensorFlow和PyTorch等。

背景信息

Data Science集群针对大数据和AI场景,提供信息如下:
  • TensorFlow和Paitf分布式模型训练,内置EasyRec算法包。
  • Alink算法平台、流处理、批处理和丰富的机器学习算法
  • Jupyterhub和Zeppelin等服务。
  • Spark大数据分布式计算引擎。
  • AutoML机器学习工具包。
  • EASCMD、Redis、Hive CLI和Faiss-Server工具集。

适用对象

DataScience节点适用对象:
  • 基于开源大数据体系的用户。
  • 基于阿里云人工智能技术完成智能推荐和智能风控等解决方案的用户。

集群创建

在E-MapReduce控制台,创建Data Science集群,创建集群详情请参见创建集群
说明 当创建集群时间超过15分钟时,您可以在集群管理页面,通过单击查看操作历史,查看报错信息,联系产品运维人员,或者提交工单处理。
  1. 在创建集群的软件配置阶段,选择正确的可用区和EMR版本。
    • 可用区:目前仅支持部分可用区,具体以实际购买页面为准。
    • 产品版本:默认显示最新EMR的版本。

      本文以EMR-3.29.1为例介绍。

    • 可选:可选服务:根据您实际情况勾选可选服务,例如勾选TensorFlow。
    Create_Data_Science
  2. 在创建集群的硬件配置阶段,需要创建VPC、交换机和安全组。新建安全组时需要跳转到ECS控制台上创建。network

    需要开启8443端口,以便于访问相关组件的UI页面,详细步骤请参见设置安全组访问

  3. 在基础配置阶段,需要添加Knox账号,用于登录Knox服务。Knox

    添加的Knox账号即阿里云RAM用户,详情请参见用户管理

查看集群

集群创建成功后,您可以在集群管理页面,查看集群服务运行状态。集群管理

开通8443端口

开通已创建集群的8443端口,以便于访问YARN和HDFS等Web UI的链接。开通端口详情请参见访问链接与端口

查看日志

您可以通过访问Web UI,查看相应服务的日志。示例如下:

  1. 访问YARN Web UI。

    访问Web UI详情请查看访问链接与端口

  2. 单击待查看Application所在行的HistoryHistory
  3. 单击Logs。logs

    您可以查看详细的日志信息。

磁盘扩容

当E-MapReduce集群的数据存储空间不足时,您可以进行磁盘扩容,详情请参见磁盘扩容

登录Worker节点

  1. 通过SSH方式登录集群。

    详情请参见使用SSH连接主节点

  2. 切换至hadoop权限。
    su hadoop
  3. 获取Worker节点的IP地址。
    cat /etc/hosts | grep worker
    返回如下类似信息。
    192.168.**.**    emr-worker-2.cluster-20**** emr-worker-2 emr-header-3.cluster-20**** emr-header-3 iZbp19nv7e19wx1ub0t****
    192.168.**.**    emr-worker-1.cluster-20**** emr-worker-1 emr-header-2 emr-header-2.cluster-20**** iZbp19nv7e19wx1ub0t****
                            
    说明 192.168.**.**为待获取Worker节点的IP地址。
  4. 免密登录Worker节点。
    ssh <yourWorkIp>
    说明 yourWorkIp为您获取到的Worker节点的IP地址。
  5. 登录Worker节点后,您可以通过sudo命令以root权限执行命令。
    sudo pip3.7 install xxx
    说明 xxx为您需要执行的命令。

使用EasyRec训练

EasyRec算法库,包含DeepFM、DIN和MultiTower等经典主流推荐算法。E-MapReduce的Data Science集群已经内置了EasyRec算法库,您可以直接使用。EasyRec的详情信息请参见EasyRec

Worker节点开通公网IP

  1. 在E-MapReduce控制台的主机列表区域,单击ECS IDID
  2. 在ECS控制台的实例页面,单击绑定弹性IPIP
  3. 绑定弹性IP对话框中,您可以选择已有的弹性IP,或是单击创建弹性公网IP,创建新的公网IP地址。

    创建弹性公网IP,详情请参见申请新EIP