经验概率密度图
本文为您介绍PAI-Designer(原PAI-Studio)提供的经验概率密度图。
算法中采用内核分布估计样本数据的概率密度,和直方图类似都是产生函数描述样本数据的分布,区别是内核分布叠加各部分的贡献而产生连续平滑的分布曲线,而直方图是离散地描述。采用内核分布时,非样本的数据点概率密度并非0,而是各样本抽样点在某种内核分布下的概率密度加权叠加,在这版实现中,内核分布固定采用高斯分布。
配置组件
您可以使用以下任意一种方式,配置经验概率密度图组件参数。
方式一:可视化方式
在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 | 参数 | 描述 |
字段设置 | 输入列 | 选择输入列,只支持bigint与double类型。 |
标签列 | 标签字段。 如果选择了该字段,会把输入列按照标签列所有的值进行分组计算。例如:标签列有0和1两个值,最终会输出两个结果,0出一个结果,1出一个结果。 | |
参数设置 | 计算频次区间数 | 值越大精度越高,会根据各列数据的取值范围进行区间划分计算区间数。 |
执行调优 | 核数目 | 计算的核心数,取值范围为正整数。 |
内存数 | 每个核心的内存,取值范围为1 MB~65536 MB。 |
方式二:PAI命令方式
使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name empirical_pdf
-project algo_public
-DinputTableName="test_data"
-DoutputTableName="test_epdf_out"
-DfeatureColNames="col0,col1,col2"
-DinputTablePartitions="ds='20160101'"
-Dlifecycle=1
-DintervalNum=100
参数名称 | 是否必选 | 描述 | 默认值 |
inputTableName | 是 | 输入表的名称。 | 无 |
outputTableName | 是 | 输出表名。 | 无 |
featureColNames | 是 | 输入表中,用于训练的特征列名。 | 无 |
labelColName | 否 | 输入表中,标签列的名称。 | 无 |
inputTablePartitions | 否 | 输入表中,参与训练的分区。系统支持以下格式:
说明 指定多个分区时,分区之间使用英文逗号(,)分隔。 | 无 |
intervalNum | 否 | 计算频次区间数,越大精度越高。取值范围[1,1E14)。 | 无 |
lifecycle | 否 | 表的生命周期。 | 无 |
coreNum | 否 | 计算的核心数,取值范围为正整数。 | 系统自动分配 |
memSizePerCore | 否 | 每个核心的内存,取值范围为1 MB~65536 MB。 | 系统自动分配 |
示例
使用如下SQL语句,生成输入数据。
drop table if exists epdf_test;
create table epdf_test as
select
*
from
(
select 1.0 as col1 from dual
union all
select 2.0 as col1 from dual
union all
select 3.0 as col1 from dual
union all
select 4.0 as col1 from dual
union all
select 5.0 as col1 from dual
) tmp;
执行如下PAI命令。
PAI -name empirical_pdf
-project algo_public
-DinputTableName=epdf_test
-DoutputTableName=epdf_test_out
-DfeatureColNames=col1;
输入说明
选择需要计算的列,可选择多列。同时可选择label列,按照每个label值把这些列切分成多组。例如label列中包含的值为0和1,需要计算的列会被分成label=0和label=1两组,分别画出概率密度。
说明选择的label列不能超过100个。
输出说明
图和结果表,结果表的字段如下。不设置label列时,label字段输出NULL。
列名
数据类型
描述
colName
string
表示输入列。
label
string
表示标签列。
x
double
表示图像里x轴的值,是使用插值算法插入的值,而非实际值。
pdf
double
表示概率密度。
输出表
+------------+------------+------------+------------+ | colname | label | x | pdf | +------------+------------+------------+------------+ | col1 | NULL | 1.0 | 0.12775155176809325 | | col1 | NULL | 1.0404050505050506 | 0.1304256933829622 | | col1 | NULL | 1.0808101010101012 | 0.13306325897429525 | | col1 | NULL | 1.1212151515151518 | 0.1356613897616418 | | col1 | NULL | 1.1616202020202024 | 0.1382173796574596 | | col1 | NULL | 1.202025252525253 | 0.1407286844875733 | | col1 | NULL | 1.2424303030303037 | 0.14319293014274642 | | col1 | NULL | 1.2828353535353543 | 0.14560791960033242 | | col1 | NULL | 1.3232404040404049 | 0.14797163876379316 | | col1 | NULL | 1.3636454545454555 | 0.1502822610772349 | | col1 | NULL | 1.404050505050506 | 0.1525381508819247 | | col1 | NULL | 1.4444555555555567 | 0.1547378654919243 | | col1 | NULL | 1.4848606060606073 | 0.1568801559764068 | | col1 | NULL | 1.525265656565658 | 0.15896396664681753 | | col1 | NULL | 1.5656707070707085 | 0.16098843325768245 | | col1 | NULL | 1.6060757575757592 | 0.1629528799404685 | | col1 | NULL | 1.6464808080808098 | 0.16485681490034038 | | col1 | NULL | 1.6868858585858604 | 0.16669992491584543 | | col1 | NULL | 1.727290909090911 | 0.16848206869138338 | | col1 | NULL | 1.7676959595959616 | 0.17020326912168932 | | col1 | NULL | 1.8081010101010122 | 0.17186370453638117 | | col1 | NULL | 1.8485060606060628 | 0.17346369900080946 | | col1 | NULL | 1.8889111111111134 | 0.17500371175692428 | | col1 | NULL | 1.929316161616164 | 0.17648432589456017 | | col1 | NULL | 1.9697212121212146 | 0.17790623634938396 | | col1 | NULL | 2.0101262626262653 | 0.1792702373286898 | | col1 | NULL | 2.050531313131316 | 0.18057720927022053 | | col1 | NULL | 2.0909363636363665 | 0.18182810544221673 | | col1 | NULL | 2.131341414141417 | 0.18302393829491406 | | col1 | NULL | 2.1717464646464677 | 0.18416576567472337 | | col1 | NULL | 2.2121515151515183 | 0.1852546770123305 | | col1 | NULL | 2.252556565656569 | 0.18629177959496213 | | col1 | NULL | 2.2929616161616195 | 0.18727818503109434 | | col1 | NULL | 2.33336666666667 | 0.18821499601297229 | | col1 | NULL | 2.3737717171717208 | 0.18910329347850022 | | col1 | NULL | 2.4141767676767714 | 0.18994412426940221 | | col1 | NULL | 2.454581818181822 | 0.19073848937711185 | | col1 | NULL | 2.4949868686868726 | 0.19148733286168018 | | col1 | NULL | 2.535391919191923 | 0.1921915315221827 | | col1 | NULL | 2.575796969696974 | 0.19285188538972659 | | col1 | NULL | 2.6162020202020244 | 0.19346910910630113 | | col1 | NULL | 2.656607070707075 | 0.19404382424446043 | | col1 | NULL | 2.6970121212121256 | 0.1945765526142701 | | col1 | NULL | 2.7374171717171762 | 0.19506771059517916 | | col1 | NULL | 2.777822222222227 | 0.19551760452158667 | | col1 | NULL | 2.8182272727272775 | 0.19592642714194602 | | col1 | NULL | 2.858632323232328 | 0.1962942551623821 | | col1 | NULL | 2.8990373737373787 | 0.1966210478770638 | | col1 | NULL | 2.9394424242424293 | 0.1969066468790639 | | col1 | NULL | 2.97984747474748 | 0.19715077683721793 | | col1 | NULL | 3.0202525252525305 | 0.19735304731663747 | | col1 | NULL | 3.060657575757581 | 0.19751295561309964 | | col1 | NULL | 3.1010626262626317 | 0.19762989056457925 | | col1 | NULL | 3.1414676767676823 | 0.19770313729675995 | | col1 | NULL | 3.181872727272733 | 0.19773188285349683 | | col1 | NULL | 3.2222777777777836 | 0.19771522265793107 | | col1 | NULL | 3.262682828282834 | 0.19765216774530828 | | col1 | NULL | 3.303087878787885 | 0.19754165270453194 | | col1 | NULL | 3.3434929292929354 | 0.19738254426210697 | | col1 | NULL | 3.383897979797986 | 0.19717365043938664 | | col1 | NULL | 3.4243030303030366 | 0.19691373021193162 | | col1 | NULL | 3.4647080808080872 | 0.1966015035982942 | | col1 | NULL | 3.505113131313138 | 0.19623566210464843 | | col1 | NULL | 3.5455181818181885 | 0.19581487945135703 | | col1 | NULL | 3.585923232323239 | 0.19533782250778076 | | col1 | NULL | 3.6263282828282897 | 0.1948031623623475 | | col1 | NULL | 3.6667333333333403 | 0.1942095854560816 | | col1 | NULL | 3.707138383838391 | 0.19355580470939734 | | col1 | NULL | 3.7475434343434415 | 0.19284057057394655 | | col1 | NULL | 3.787948484848492 | 0.19206268194364004 | | col1 | NULL | 3.8283535353535427 | 0.19122099686158253 | | col1 | NULL | 3.8687585858585933 | 0.19031444296253852 | | col1 | NULL | 3.909163636363644 | 0.1893420275936375 | | col1 | NULL | 3.9495686868686946 | 0.18830284755928747 | | col1 | NULL | 3.989973737373745 | 0.1871960984396676 | | col1 | NULL | 4.030378787878796 | 0.18602108343567092 | | col1 | NULL | 4.070783838383846 | 0.18477722169674377 | | col1 | NULL | 4.111188888888897 | 0.1834640560916829 | | col1 | NULL | 4.151593939393948 | 0.1820812603860928 | | col1 | NULL | 4.191998989898998 | 0.18062864579383914 | | col1 | NULL | 4.232404040404049 | 0.179106166873458 | | col1 | NULL | 4.272809090909099 | 0.17751392674406796 | | col1 | NULL | 4.31321414141415 | 0.17585218159888508 | | col1 | NULL | 4.353619191919201 | 0.17412134449794325 | | col1 | NULL | 4.394024242424251 | 0.1723219884250765 | | col1 | NULL | 4.434429292929302 | 0.17045484859762067 | | col1 | NULL | 4.4748343434343525 | 0.16852082402064342 | | col1 | NULL | 4.515239393939403 | 0.1665209782808102 | | col1 | NULL | 4.555644444444454 | 0.16445653957824907 | | col1 | NULL | 4.596049494949504 | 0.16232889999798905 | | col1 | NULL | 4.636454545454555 | 0.16013961402571825 | | col1 | NULL | 4.6768595959596055 | 0.1578903963157465 | | col1 | NULL | 4.717264646464656 | 0.15558311872216193 | | col1 | NULL | 4.757669696969707 | 0.1532198066072439 | | col1 | NULL | 4.798074747474757 | 0.1508026344442397 | | col1 | NULL | 4.838479797979808 | 0.14833392073462115 | | col1 | NULL | 4.878884848484859 | 0.14581612226291346 | | col1 | NULL | 4.919289898989909 | 0.1432518277151203 | | col1 | NULL | 4.95969494949496 | 0.1406437506896507 | | col1 | NULL | 5.00010000000001 | 0.13799472213247665 | +------------+------------+------------+------------+