混合云大数据离线计算性能压力测试
本实践主要介绍使用行业标准测试工具TeraSort来测试大数据离线计算性能。通过TeraSort算法进行数据排序并计算耗时,以此来衡量大数据批量计算能力,相同的计算资源和数据量前提下,排序耗时俞短性能俞佳。
前提条件
大数据计算MaxCompute基于企业版V3.12及以上版本。
背景信息
TeraSort是大数据体系的测试中很重要的工具,对一定数据量(如1 TB)数据进行排序,通过排序时间来衡量分布式数据处理框架的数据处理能力。
组件介绍
大数据计算服务(MaxCompute)是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。
DataWorks数据工场为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPSSQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。
实践步骤
大数据平台准备。
创建大数据MaxCompute计算项目。
首先需要创建大数据MaxCompute的项目,配置计算资源,CPU、内存、存储空间,作为大数据计算使用。
登录云平台管理界面,选择大数据计算MaxCompute。
首先,创建计算资源配额组作为计算资源使用,单位为cu,1 cu=1 core4 G内存。
新建云账号,一个云账号可以关联多个项目资源。
创建MaxCompute集群,选择刚创建的配额组和任务云账号。
创建DataWorks工作空间。
DataWorks是一站式数据管理开发的工具,可以对MaxCompute大数据项目的数据进行开发,需要创建DataWorks工作空间并与MaxCompute项目进行关联。
登录云平台管理界面,选择DataWorks。
在左侧导航栏中单击全部产品,单击组织管理,创建工作空间,关联MaxCompute项目。
创建工作空间业务流程。
进入工作空间工作区,新建业务流程,在当前业务流程可以进行数据集成,数据开发等操作。
离线计算性能测试。
TeraGen生成数据。
登录天基平台,在左侧导航栏,单击运维,在运维列表中,选择服务运维,搜索odps-service-computer服务。
选择Terminal登录,或者通过ops1节点ssh登录odps-service-computer服务节点。
上传性能测试脚本和jar包到odps-service-computer服务节点,jar包和脚本如图所示:
修改config.sh脚本内容如下:其中project_name字段为上文实践步骤创建的MaxCompute项目名称,access_id和access_key字段为对应组织的ak和sk。
修改脚本0_inittables.sh内容,如图所示:
执行命令sh 0_inittables.sh生成1.6 TB数据,17179869160行。
TeraSort数据排序。
修改2_terasort.sh脚本内容,如图所示:
使用sh 2_terasort.sh运行数据排序。
通过logview查询运行结果,1.6 TB数据排序时间为36 min。
- 本页导读