本文为您介绍PAI-Designer(原PAI-Studio)提供的散点图。
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图。
组件配置
您可以使用以下任意一种方式,配置散点图组件参数。
方式一:可视化方式
在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
参数 | 描述 |
---|---|
选择特征列 | 选择用来表现训练样本数据特征的列。 |
分类标签列 | 标签字段。 |
抽样样本数 | 抽样的样本数量。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name scatter_diagram -project algo_public
-DselectedCols=emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m
-DlabelCol=y
-DmapTable=pai_temp_2447_22859_2
-DinputTable=scatter_diagram
-DoutputTable=pai_temp_2447_22859_1;
参数名称 | 是否必选 | 描述 | 默认值 |
---|---|---|---|
inputTable | 是 | 输入表的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
|
无 |
outputTable | 是 | 输出表名称。 | 无 |
mapTable | 是 | 输出信息表,存放每个特征的最小值、最大值和枚举取值等。 | 无 |
selectedCols | 是 | 选择列名类型,用于绘制两两特征之间的散点图,最多勾选5个特征。 | 无 |
labelCol | 是 | 把Int或者String字段当做枚举标签列。 | 空 |
lifecycle | 是 | 输出表生命周期。单位:天。 | 28 |
示例
- 输入数据
create table scatter_diagram as select emp_var_rate,cons_price_rate, cons_conf_idx,euribor3m,y from pai_bank_data limit 10
emp_var_rate cons_price_rate cons_conf_idx euribor3m y 1.4 93.918 -42.7 4.962 0 -0.1 93.2 -42.0 4.021 0 -1.7 94.055 -39.8 0.729 1 -1.8 93.075 -47.1 1.405 0 -2.9 92.201 31.4 0.869 1 1.4 93.918 -42.7 4.961 0 -1.8 92.893 -46.2 1.327 0 -1.8 92.893 92.893 1.313 0 -2.9 92.963 -40.8 1.266 1 -1.8 93.075 -47.1 1.41 0 1.1 93.994 -36.4 4.864 0 1.4 93.444 -36.1 4.964 0 1.4 93.444 -36.1 4.965 1 -1.8 92.893 -46.2 1.291 0 1.4 94.465 -41.8 4.96 0 1.4 93.918 -42.7 4.962 0 -1.8 93.075 -47.1 1.365 1 -0.1 93.798 -40.4 4.86 1 1.1 93.994 -36.4 4.86 0 1.4 93.918 -42.7 4.96 0 -1.8 93.075 -47.1 1.405 0 1.4 94.465 -41.8 4.967 0 1.4 93.918 -42.7 4.963 0 1.4 93.918 -42.7 4.968 0 1.4 93.918 -42.7 4.962 0 -1.8 92.893 -46.2 1.344 0 -3.4 92.431 -26.9 0.754 0 -1.8 93.075 -47.1 1.365 0 -1.8 92.893 -46.2 1.313 0 1.4 93.918 -42.7 4.961 0 1.4 94.465 -41.8 4.961 0 -1.8 92.893 -46.2 1.327 0 -1.8 92.893 -46.2 1.299 0 -2.9 92.963 -40.8 1.268 1 1.4 93.918 -42.7 4.963 0 -1.8 92.893 -46.2 1.334 0 1.4 93.918 -42.7 4.96 0 -1.8 93.075 -47.1 1.405 0 1.4 94.465 -41.8 4.96 0 1.4 93.444 -36.1 4.962 0 1.1 93.994 -36.4 4.86 0 1.1 93.994 -36.4 4.857 0 1.4 93.918 -42.7 4.961 0 -3.4 92.649 -30.1 0.715 1 1.4 93.444 -36.1 4.966 0 -0.1 93.2 -42.0 4.076 0 1.4 93.444 -36.1 4.965 0 -1.8 92.893 -46.2 1.354 0 1.4 93.444 -36.1 4.967 0 1.4 94.465 -41.8 4.959 0 -1.8 92.893 -46.2 1.354 0 1.4 94.465 -41.8 4.958 0 -1.8 92.893 -46.2 1.354 0 1.4 94.465 -41.8 4.864 0 1.1 93.994 -36.4 4.859 0 1.1 93.994 -36.4 4.857 0 -1.8 92.893 -46.2 1.27 0 1.1 93.994 -36.4 4.857 0 1.1 93.994 -36.4 4.859 0 1.4 94.465 -41.8 4.959 0 1.1 93.994 -36.4 4.856 0 -1.8 93.075 -47.1 1.405 0 -1.8 92.843 -50.0 1.811 1 -0.1 93.2 -42.0 4.021 0 -2.9 92.469 -33.6 1.029 0 1.4 93.918 -42.7 4.962 0 -1.8 93.075 -47.1 1.365 0 1.1 93.994 -36.4 4.857 0 -1.8 92.893 -46.2 1.259 0 1.1 93.994 -36.4 4.857 0 1.4 94.465 -41.8 4.866 0 -2.9 92.201 -31.4 0.883 0 -0.1 93.2 -42.0 4.076 0 1.1 93.994 -36.4 4.857 0 1.4 93.918 -42.7 4.96 0 1.4 93.444 -36.1 4.962 0 1.1 93.994 -36.4 4.858 0 1.1 93.994 -36.4 4.857 0 1.1 93.994 -36.4 4.856 0 1.4 93.918 -42.7 4.968 0 1.4 93.444 -36.1 4.966 0 1.4 94.465 -41.8 4.962 0 1.4 93.444 -36.1 4.963 0 -1.8 92.843 -50.0 1.56 1 1.4 93.918 -42.7 4.96 0 1.4 93.444 -36.1 4.963 0 -3.4 92.431 -26.9 0.74 0 1.1 93.994 -36.4 4.856 0 1.4 93.918 -42.7 4.962 0 1.1 93.994 -36.4 4.856 0 -0.1 93.2 -42.0 4.245 1 1.1 93.994 -36.4 4.857 0 -1.8 93.075 -47.1 1.405 0 -1.8 92.893 -46.2 1.327 0 -0.1 93.2 -42.0 4.12 0 1.4 94.465 -41.8 4.958 0 -1.8 93.749 -34.6 0.659 1 1.1 93.994 -36.4 4.858 0 1.1 93.994 -36.4 4.858 0 1.4 93.444 -36.1 4.963 0 - 参数配置
选择y为散点图可选的标签列,选择select emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m为特征列。
- 运行结果
直观的展示了特征与特征之间分类标签的分布情况。