机器学习多种可视化统计分析图表
本实践主要介绍机器学习平台PAI统计分析组件多种可视化统图表,可以基于该组件进行不同的数据分析。
前提条件
大数据计算MaxCompute、DataWorks、PAI基于企业版V3.14及以上版本。
背景信息
机器学习平台PAI支持统计分析组件多种可视化统图表,如直方图、散点图、正态检验、皮尔森系数、经典概率密度图、箱线图等,可以基于该组件进行不同的数据分析,无需计算后再使用其他产品,为业务开发提供便利。
组件介绍
大数据计算服务(MaxCompute)是面向大数据处理的分布式系统,主要提供结构化数据的存储和计算,服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。
DataWorks数据工场为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持离线同步、Shell、ODPS SQL、ODPS MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行分析处理。DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务。
机器学习平台PAI(Platformof Artificial Intelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案,面向企业客户及开发者,提供轻量化、高性价比的云原生机器学习。PAI支持丰富的机器学习算法、一站式的机器学习体验、主流的机器学习框架及可视化的建模。
实践步骤
准备机器学习所需计算资源
首先需要创建大数据MaxCompute的项目,配置计算资源,CPU、内存、存储空间,做大数据计算使用。
创建大数据MaxCompute项目。
登录Apsara Uni-manager运营控制台,在上方导航栏选择产品>大数据>大数据计算服务MaxCompute,进入大数据计算服务界面。
首先,单击创建,创建计算资源配额组作为计算资源使用,单位为cu,1 cu=1 core4G内存。
单击新建云账号,创建任务云账号,用于创建MaxCompute项目使用,一个云账号可以关联多个项目资源。
单击创建Max Compute 集群,选择刚创建的配额组和任务云账号,MaxCompute项目之间默认是互相隔离的空间。
创建DataWorks工作空间。
DataWorks一站式数据管理开发的工具,可以对MaxCompute大数据项目的数据进行开发,需要创建DataWorks工作空间并与MaxCompute项目进行关联。
登录Apsara Uni-manager运营控制台,在上方导航栏选择产品>大数据>DataWorks。
首先,选择全部产品>组织管理,单击创建工作空间,关联MaxCompute项目。
创建工作空间业务流程。
创建完成之后,单击进入工作区,单击新建业务流程,在当前业务流程可以进行数据集成、数据开发等操作。
机器学习可视化统计分析图表
准备数据。
在DataWorks页面,单击数据开发>新建>ODPS SQL。
执行SQL脚本创建表scatter_diagram并插入数据,单击上方的运行按钮。
SQL内容如下:
createtableas select*from ( select1.4,93.918 cons_price_rate,-42.7,4.962 euribor3m,0 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.021 euribor3m,0 y unionall select-1.7,94.055 cons_price_rate,-39.8,0.729 euribor3m,1 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.405 euribor3m,0 y unionall select-2.9,92.201 cons_price_rate,31.4,0.869 euribor3m,1 y unionall select1.4,93.918 cons_price_rate,-42.7,4.961 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.327 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,92.893,1.313 euribor3m,0 y unionall select-2.9,92.963 cons_price_rate,-40.8,1.266 euribor3m,1 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.41 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.864 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.964 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.965 euribor3m,1 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.291 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.96 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.962 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.365 euribor3m,1 y unionall select-0.1,93.798 cons_price_rate,-40.4,4.86 euribor3m,1 y unionall select1.1,93.994 cons_price_rate,-36.4,4.86 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.96 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.405 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.967 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.963 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.968 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.962 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.344 euribor3m,0 y unionall select-3.4,92.431 cons_price_rate,-26.9,0.754 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.365 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.313 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.961 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.961 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.327 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.299 euribor3m,0 y unionall select-2.9,92.963 cons_price_rate,-40.8,1.268 euribor3m,1 y unionall select1.4,93.918 cons_price_rate,-42.7,4.963 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.334 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.96 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.405 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.96 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.962 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.86 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.961 euribor3m,0 y unionall select-3.4,92.649 cons_price_rate,-30.1,0.715 euribor3m,1 y unionall select1.4,93.444 cons_price_rate,-36.1,4.966 euribor3m,0 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.076 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.965 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.354 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.967 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.959 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.354 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.958 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.354 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.864 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.859 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.27 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.859 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.959 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.856 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.405 euribor3m,0 y unionall select-1.8,92.843 cons_price_rate,-50.0,1.811 euribor3m,1 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.021 euribor3m,0 y unionall select-2.9,92.469 cons_price_rate,-33.6,1.029 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.962 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.365 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.259 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.866 euribor3m,0 y unionall select-2.9,92.201 cons_price_rate,-31.4,0.883 euribor3m,0 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.076 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.96 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.962 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.858 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.856 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.968 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.966 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.962 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.963 euribor3m,0 y unionall select-1.8,92.843 cons_price_rate,-50.0,1.56 euribor3m,1 y unionall select1.4,93.918 cons_price_rate,-42.7,4.96 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.963 euribor3m,0 y unionall select-3.4,92.431 cons_price_rate,-26.9,0.74 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.856 euribor3m,0 y unionall select1.4,93.918 cons_price_rate,-42.7,4.962 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4 cons_conf_idx,4.856 euribor3m,0 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.245 euribor3m,1 y unionall select1.1,93.994 cons_price_rate,-36.4,4.857 euribor3m,0 y unionall select-1.8,93.075 cons_price_rate,-47.1,1.405 euribor3m,0 y unionall select-1.8,92.893 cons_price_rate,-46.2,1.327 euribor3m,0 y unionall select-0.1,93.2 cons_price_rate,-42.0,4.12 euribor3m,0 y unionall select1.4,94.465 cons_price_rate,-41.8,4.958 euribor3m,0 y unionall select-1.8,93.749 cons_price_rate,-34.6,0.659 euribor3m,1 y unionall select1.1,93.994 cons_price_rate,-36.4,4.858 euribor3m,0 y unionall select1.1,93.994 cons_price_rate,-36.4,4.858 euribor3m,0 y unionall select1.4,93.444 cons_price_rate,-36.1,4.963 euribor3m,0 y )tmp;
进行机器学习实验。
在上方导航栏选择产品>大数据>机器学习 PAI,进入PAI产品界面。
选择模型开发和训练>可视化建模(Studio),选择之前创建DataWorks创建的项目名称,单击进入机器学习,进入机器学习PAI实验页面。
单击左侧实验,选择下方新建实验。
新建实验完成后,在左侧导航栏选择组件>源/目标>读MaxCompute表,将该组件模块拖到画布中间,画布中自动生成一个工作流节点,并修改右侧表名称为创建的数据表scatter_diagram,修改名称为scatter_diagram。
直方图。
直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。通常横轴表示数据类型,纵轴表示分布情况。
选择左侧:组件>统计分析>直方图(多字段),将该组件模块拖到画布中,画布中自动生成一个工作流节点为直方图(多字段)-1。
将scatter_diagram和直方图(多字段)-1模块连接起来,scatter_diagram作为输入为起点,直方图作为输出为箭头指向方向。
选择画布中直方图(多字段)-1模块,右侧出现字段设置,单击选择字段后选择如图字段,并单击确定,其他参数可默认。
各参数配置描述如下:
页签
参数
描述
字段设置
选择字段
选择需要分析的字段。支持double和bigint类型。
参数设置
区间个数
直方图的区间个数。
执行调优
计算核心数
计算的核心数,取值范围为正整数。
每个核内存数
每个核心的内存,取值范围为1 MB~65536 MB。
选择画布中直方图(多字段)-1模块,单击右键执行到此处,待运行结束。
选择画布中直方图(多字段)-1模块,单击右键查看分析报告,可以查看不同字段的直方图。
单击直方图该处图标,也可根据需要将柱状图转换为折线图。
散点图。
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图。
在左侧导航栏选择组件>统计分析>散点图,将该组件模块拖到画布中,画布中自动生成一个工作流节点为散点图-1。
将scatter_diagram和散点图-1模块连接起来,scatter_diagram作为输入为起点,散点图作为输出为箭头指向方向。
选择画布中散点图-1模块,右侧出现字段设置,单击选择字段后选择如图字段,并单击确定,其他参数可默认。
各参数配置描述如下:
参数
描述
选择特征列
选择用来表现训练样本数据特征的列。
分类标签列
标签字段。
抽样样本数
抽样的样本数量。
选择画布中散点图-1模块,右键单击执行到此处,待运行结束。
选择画布中散点图-1模块,右键单击查看分析报告,可以查看不同字段的散点图。
正态检验。
正态性检验通过观测值判断总体是否服从正态分布,是统计判决中重要的一种特殊的拟合优度假设检验。本实践为您介绍Designer提供的正态检验。
正态检验组件由Anderson-Darling Test、Kolmogorov-Smirnov Test和QQ图检验方法组成,您可以选择一种或多种检验方法。
Anderson-Darling Test是将样本数据的经验累积分布函数与假设数据呈正态分布时期望的分布进行比较。如果实测差异足够大,该检验将否定总体呈正态分布的假设。
Kolmogorov-Smirnov是比较两个观测值分布的检验方法。
QQ图通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况。在样本量>1000时,系统会采样进行计算并输出QQ图,因此图中的数据点不一定覆盖所有样本。
在左侧导航栏选择组件>统计分析>正态检验,将该组件模块拖到画布中,画布中自动生成一个工作流节点为正态检验-1。
将scatter_diagram和正态检验-1模块连接起来,scatter_diagram作为输入为起点,正态检验作为输出为箭头指向方向。
选择画布中正态检验-1模块,右侧出现字段设置,单击选择字段后选择如图字段,并单击确定,其他参数可默认。
各参数配置描述如下:
页签
参数
描述
字段设置
选择字段列
无
参数设置
Anderson-Darling检验
取值为:
是
否
默认值为是。
Kolmogorov-Smirnov检验
取值为:
是
否
默认值为是。
使用QQ图
取值为:
是
否
默认值为是。
执行调优
计算的核心数
计算的核心数,取值为正整数。
每个核心的内存(MB)
每个核心的内存。
选择画布中正态检验-1模块,右键单击执行到此处,待运行结束。
选择画布中正态检验-1模块,右键单击查看分析报告,可以查看不同字段的正态检验。
皮尔森系数。
皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。机器学习中,皮尔森系数用于计算输入表或分区两列(数值列)的Pearson相关系数,计算结果输出至输出表。
在左侧导航栏选择组件>统计分析>皮尔森系数,将该组件模块拖到画布中,画布中自动生成一个工作流节点为皮尔森系数-1。
将scatter_diagram和皮尔森系数-1模块连接起来,scatter_diagram作为输入为起点,皮尔森系数作为输出为箭头指向方向。
选择画布中皮尔森系数-1模块,右侧出现字段设置,单击选择字段后选择如图字段,选择两个输入列字段并单击确定。
选择画布中皮尔森系数-1模块,右键单击执行到此处,待运行结束。
选择画布中皮尔森系数-1模块,右键单击查看分析报告,可以查看皮尔森系数结果。
经典概率密度图。
经典概率密度图与直方图类似,都是代表样本数据的分布情况。区别是概率密度图分布通过叠加各部分数据而产生连续平滑的分布曲线,而直方图呈现的是离散地数据分布。采用内核分布时,非样本数据点的概率密度并非0,而是各样本抽样点在内核分布下的概率密度的加权叠加。
在左侧导航栏选择组件>统计分析>经典概率密度图,将该组件模块拖到画布中,画布中自动生成一个工作流节点为经典概率密度图-1。
将scatter_diagram和经典概率密度图-1模块连接起来,scatter_diagram作为输入为起点,经典概率密度图作为输出为箭头指向方向。
选择画布中经典概率密度图-1模块,右侧出现字段设置,单击选择字段后选择如图字段,并单击确定,其他参数可默认。
各参数配置描述如下:
页签
参数
描述
字段设置
选择字段
选择输入列,只支持bigint与double类型。
标签列
标签字段。
参数设置
计算频次区间数
值越大精度越高,会根据各列数据的取值范围进行区间划分计算区间数。
执行调优
计算核心数
计算的核心数,取值范围为正整数。
每个核内存数
每个核心的内存,取值范围为1 MB~65536 MB。
选择画布中经典概率密度图-1模块,右键单击执行到此处,待运行结束。
选择画布中经典概率密度图-1模块,右键单击查看分析报告,可以查看不同字段的经典概率密度图。
箱线图。
箱线图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
在左侧导航栏选择组件>统计分析>箱线图,将该组件模块拖到画布中,画布中自动生成一个工作流节点为箱线图-1。
将scatter_diagram和箱线图-1模块连接起来,scatter_diagram作为输入为起点,箱线图作为输出为箭头指向方向。
选择画布中箱线图-1模块,右侧出现字段设置,单击选择字段后选择如图字段,并单击确定。
选择枚举类型特征。
各参数配置描述如下:
参数
描述
选择连续类型特征
选择连续类型的特征。
选择枚举类型特征
选择枚举类型的特征。
分层样本采用数
分层样本的采用数。
选择画布中箱线图-1模块,右键单击执行到此处,待运行结束。
选择画布中箱线图-1模块,右键单击查看分析报告,可以查看不同字段的箱线图。
扰动点图分布情况如下图所示: