概述

Data Science节点底层基于E-MapReduce(简称EMR)组件,支持阿里云机器学习平台团队提供的人工智能,包含了向量计算引擎FAISS、深度学习框架TensorFlow和PyTorch等。

背景信息

Data Science集群针对大数据和AI场景,提供信息如下:

  • TensorFlow和Paitf分布式模型训练,内置EasyRec算法包。

  • Jupyterhub和Zeppelin等服务。

  • Spark大数据分布式计算引擎。

  • EASCMD、Redis、Hive CLI和Faiss-Server工具集。

适用对象

DataScience节点适用对象:

  • 基于开源大数据体系的用户。

  • 基于阿里云人工智能技术完成智能推荐和智能风控等解决方案的用户。

集群创建

在E-MapReduce控制台,创建Data Science集群。

说明

当创建集群时间超过15分钟时,您可以加入32497587钉钉群咨询。

创建集群时,需要关注以下配置信息:

  • 选择正确的地域和EMR版本。

    • 在页面顶部选择对应地域,具体以实际购买页面为准。

    • 产品版本:默认显示最新的EMR版本。

      本文以EMR-3.35.7为例介绍。

    • 可选:可选服务:根据您实际情况勾选可选服务。例如,勾选TensorFlow。

    Create_Data_Science

  • 在创建集群的硬件配置阶段,需要创建VPC、交换机和安全组。新建安全组时需要跳转到ECS控制台上创建。network

    需要开启8443端口,以便于访问相关组件的UI页面。

  • 在基础配置阶段,需要添加Knox账号,用于登录Knox服务。Knox

    添加的Knox账号即阿里云RAM用户。

查看集群

集群创建成功后,您可以在集群管理页面,查看集群服务运行状态。集群管理

开通8443端口

开通已创建集群的8443端口,以便于访问YARN和HDFS等Web UI的链接。

查看日志

您可以通过访问Web UI,查看相应服务的日志。查看YARN日志示例如下:

  1. 访问YARN Web UI。YARN Web UI

  2. 单击目标Application所在行的HistoryHistory

  3. 单击Log URL。Log URL

  4. 您可以从后往前查找日志,单击目标日志所在行的logLog_info

    您可以查看详细的日志信息。日志详细信息

登录Worker节点

  1. 通过SSH方式登录集群。

  2. 切换至hadoop权限。

    su hadoop
  3. 获取Worker节点的IP地址。

    cat /etc/hosts | grep worker

    返回如下类似信息。

    192.168.**.**    emr-worker-2.cluster-20**** emr-worker-2 emr-header-3.cluster-20**** emr-header-3 iZbp19nv7e19wx1ub0t****
    192.168.**.**    emr-worker-1.cluster-20**** emr-worker-1 emr-header-2 emr-header-2.cluster-20**** iZbp19nv7e19wx1ub0t****
                            
    说明

    192.168.**.**为待获取Worker节点的IP地址。

  4. 免密登录Worker节点。

    ssh <yourWorkIp>
    说明

    yourWorkIp为您获取到的Worker节点的IP地址。

  5. 登录Worker节点后,您可以通过sudo命令以root权限执行相关的命令。

    sudo pip3.7 install xxx
    说明

    xxx为您需要执行的命令或者安装包名称。

使用EasyRec训练

EasyRec算法库,包含DeepFM、DIN和MultiTower等经典主流推荐算法。E-MapReduce的Data Science集群已经内置了EasyRec算法库,您可以直接使用。

Worker节点开通公网IP

  1. 在E-MapReduce控制台的主机列表区域,单击ECS IDID

  2. 在ECS控制台的实例页面,单击绑定弹性IPIP

  3. 绑定弹性IP对话框中,您可以选择已有的弹性IP,或是单击创建弹性公网IP,创建新的公网IP地址。

    创建弹性公网IP,详情请参见申请EIP