本文为您介绍PAI-Studio提供的散点图。

散点图是指在回归分析中,数据点在直角坐标系平面上的分布图。

配置组件

您可以通过以下任意一种方式,配置散点图组件参数:
  • 可视化方式
    参数 描述
    选择特征列 选择用来表现训练样本数据特征的列。
    分类标签列 标签字段。
    抽样样本数 抽样的样本数量。
  • PAI命令方式
    PAI -name scatter_diagram -project algo_public
     -DselectedCols=emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m
     -DlabelCol=y
     -DmapTable=pai_temp_2447_22859_2
     -DinputTable=scatter_diagram
     -DoutputTable=pai_temp_2447_22859_1;
    参数名称 是否必选 描述 默认值
    inputTable 输入表的名称。
    inputTablePartitions 输入表中,参与训练的分区。系统支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级分区
    说明 指定多个分区时,分区之间使用英文逗号(,)分隔。
    outputTable 输出表名称。
    mapTable 输出信息表,存放每个特征的最小值、最大值和枚举取值等。
    selectedCols 选择列名类型,用于绘制两两特征之间的散点图,最多勾选5个特征。
    labelCol 把Int或者String字段当做枚举标签列。
    lifecycle 输出表生命周期。单位:天。 28

示例

  • 输入数据
    create table scatter_diagram as select emp_var_rate,cons_price_rate, cons_conf_idx,euribor3m,y from pai_bank_data limit 10
    emp_var_rate cons_price_rate cons_conf_idx euribor3m y
    1.4 93.918 -42.7 4.962 0
    -0.1 93.2 -42.0 4.021 0
    -1.7 94.055 -39.8 0.729 1
    -1.8 93.075 -47.1 1.405 0
    -2.9 92.201 31.4 0.869 1
    1.4 93.918 -42.7 4.961 0
    -1.8 92.893 -46.2 1.327 0
    -1.8 92.893 92.893 1.313 0
    -2.9 92.963 -40.8 1.266 1
    -1.8 93.075 -47.1 1.41 0
    1.1 93.994 -36.4 4.864 0
    1.4 93.444 -36.1 4.964 0
    1.4 93.444 -36.1 4.965 1
    -1.8 92.893 -46.2 1.291 0
    1.4 94.465 -41.8 4.96 0
    1.4 93.918 -42.7 4.962 0
    -1.8 93.075 -47.1 1.365 1
    -0.1 93.798 -40.4 4.86 1
    1.1 93.994 -36.4 4.86 0
    1.4 93.918 -42.7 4.96 0
    -1.8 93.075 -47.1 1.405 0
    1.4 94.465 -41.8 4.967 0
    1.4 93.918 -42.7 4.963 0
    1.4 93.918 -42.7 4.968 0
    1.4 93.918 -42.7 4.962 0
    -1.8 92.893 -46.2 1.344 0
    -3.4 92.431 -26.9 0.754 0
    -1.8 93.075 -47.1 1.365 0
    -1.8 92.893 -46.2 1.313 0
    1.4 93.918 -42.7 4.961 0
    1.4 94.465 -41.8 4.961 0
    -1.8 92.893 -46.2 1.327 0
    -1.8 92.893 -46.2 1.299 0
    -2.9 92.963 -40.8 1.268 1
    1.4 93.918 -42.7 4.963 0
    -1.8 92.893 -46.2 1.334 0
    1.4 93.918 -42.7 4.96 0
    -1.8 93.075 -47.1 1.405 0
    1.4 94.465 -41.8 4.96 0
    1.4 93.444 -36.1 4.962 0
    1.1 93.994 -36.4 4.86 0
    1.1 93.994 -36.4 4.857 0
    1.4 93.918 -42.7 4.961 0
    -3.4 92.649 -30.1 0.715 1
    1.4 93.444 -36.1 4.966 0
    -0.1 93.2 -42.0 4.076 0
    1.4 93.444 -36.1 4.965 0
    -1.8 92.893 -46.2 1.354 0
    1.4 93.444 -36.1 4.967 0
    1.4 94.465 -41.8 4.959 0
    -1.8 92.893 -46.2 1.354 0
    1.4 94.465 -41.8 4.958 0
    -1.8 92.893 -46.2 1.354 0
    1.4 94.465 -41.8 4.864 0
    1.1 93.994 -36.4 4.859 0
    1.1 93.994 -36.4 4.857 0
    -1.8 92.893 -46.2 1.27 0
    1.1 93.994 -36.4 4.857 0
    1.1 93.994 -36.4 4.859 0
    1.4 94.465 -41.8 4.959 0
    1.1 93.994 -36.4 4.856 0
    -1.8 93.075 -47.1 1.405 0
    -1.8 92.843 -50.0 1.811 1
    -0.1 93.2 -42.0 4.021 0
    -2.9 92.469 -33.6 1.029 0
    1.4 93.918 -42.7 4.962 0
    -1.8 93.075 -47.1 1.365 0
    1.1 93.994 -36.4 4.857 0
    -1.8 92.893 -46.2 1.259 0
    1.1 93.994 -36.4 4.857 0
    1.4 94.465 -41.8 4.866 0
    -2.9 92.201 -31.4 0.883 0
    -0.1 93.2 -42.0 4.076 0
    1.1 93.994 -36.4 4.857 0
    1.4 93.918 -42.7 4.96 0
    1.4 93.444 -36.1 4.962 0
    1.1 93.994 -36.4 4.858 0
    1.1 93.994 -36.4 4.857 0
    1.1 93.994 -36.4 4.856 0
    1.4 93.918 -42.7 4.968 0
    1.4 93.444 -36.1 4.966 0
    1.4 94.465 -41.8 4.962 0
    1.4 93.444 -36.1 4.963 0
    -1.8 92.843 -50.0 1.56 1
    1.4 93.918 -42.7 4.96 0
    1.4 93.444 -36.1 4.963 0
    -3.4 92.431 -26.9 0.74 0
    1.1 93.994 -36.4 4.856 0
    1.4 93.918 -42.7 4.962 0
    1.1 93.994 -36.4 4.856 0
    -0.1 93.2 -42.0 4.245 1
    1.1 93.994 -36.4 4.857 0
    -1.8 93.075 -47.1 1.405 0
    -1.8 92.893 -46.2 1.327 0
    -0.1 93.2 -42.0 4.12 0
    1.4 94.465 -41.8 4.958 0
    -1.8 93.749 -34.6 0.659 1
    1.1 93.994 -36.4 4.858 0
    1.1 93.994 -36.4 4.858 0
    1.4 93.444 -36.1 4.963 0
  • 参数配置

    选择y为散点图可选的标签列,选择select emp_var_ratecons_price_ratecons_conf_idxeuribor3m为特征列。

  • 运行结果

    直观的展示了特征与特征之间分类标签的分布情况。

    散点图-运行结果