文档

混合云大数据离线计算性能压力测试

更新时间:
一键部署

本实践主要介绍使用行业标准测试工具TeraSort来测试大数据离线计算性能。通过TeraSort算法进行数据排序并计算耗时,以此来衡量大数据批量计算能力,相同的计算资源和数据量前提下,排序耗时俞短性能俞佳。

前提条件

  • 大数据计算MaxCompute基于企业版V3.12及以上版本。

背景信息

TeraSort是大数据体系的测试中很重要的工具,对一定数据量(如1 TB)数据进行排序,通过排序时间来衡量分布式数据处理框架的数据处理能力。

组件介绍

大数据计算服务(MaxCompute)是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。

DataWorks数据工场为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPSSQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。

实践步骤

  1. 大数据平台准备。

    1. 创建大数据MaxCompute计算项目。

      首先需要创建大数据MaxCompute的项目,配置计算资源,CPU、内存、存储空间,作为大数据计算使用。

      1. 登录云平台管理界面,选择大数据计算MaxCompute1

      2. 首先,创建计算资源配额组作为计算资源使用,单位为cu,1 cu=1 core4 G内存。234

      3. 新建云账号,一个云账号可以关联多个项目资源。56

      4. 创建MaxCompute集群,选择刚创建的配额组和任务云账号。789

    2. 创建DataWorks工作空间。

      DataWorks是一站式数据管理开发的工具,可以对MaxCompute大数据项目的数据进行开发,需要创建DataWorks工作空间并与MaxCompute项目进行关联。

      1. 登录云平台管理界面,选择DataWorks10

      2. 在左侧导航栏中单击全部产品,单击组织管理创建工作空间,关联MaxCompute项目。111213

    3. 创建工作空间业务流程。

      1. 进入工作空间工作区,新建业务流程,在当前业务流程可以进行数据集成,数据开发等操作。141516

  2. 离线计算性能测试。

    1. TeraGen生成数据。

      1. 登录天基平台,在左侧导航栏,单击运维,在运维列表中,选择服务运维,搜索odps-service-computer服务。12

      2. 选择Terminal登录,或者通过ops1节点ssh登录odps-service-computer服务节点。19

      3. 上传性能测试脚本和jar包到odps-service-computer服务节点,jar包和脚本如图所示:20

      4. 修改config.sh脚本内容如下:其中project_name字段为上文实践步骤创建的MaxCompute项目名称,access_id和access_key字段为对应组织的ak和sk。1

      5. 修改脚本0_inittables.sh内容,如图所示:2526

      6. 执行命令sh 0_inittables.sh生成1.6 TB数据,17179869160行。222324

  3. TeraSort数据排序。

    1. 修改2_terasort.sh脚本内容,如图所示:28

    2. 使用sh 2_terasort.sh运行数据排序。27

    3. 通过logview查询运行结果,1.6 TB数据排序时间为36 min。29

  • 本页导读
文档反馈