本文为您介绍K近邻组件。
功能说明
K近邻组件支持使用K近邻算法对分类或回归问题进行建模。分类分析时,在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。回归分析时,通过找出一个样本的k个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本对应属性的值。
计算逻辑原理
最近邻方法的原理是找到距离新点最近的预定义数量的训练样本,并从中预测标签。样本数量可以是用户定义的常数(k-最近邻学习),也可以根据点的局部密度(基于半径的邻居学习)而变化。通常,距离可以是任何度量标准:标准欧几里得距离是最常见的选择。基于邻居的方法被称为非泛化机器学习方法,因为它们只是“记住”其所有训练数据。
参数说明
IN端口
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
特征变量 | 配置模型特征列 | 是 | 整数或浮点数 说明 若存在非数值数据,则会抛出异常。 |
|
目标变量 | 配置模型目标列 | 是 |
说明 若存在非数值数据,则会抛出异常。 |
|
模型端口
参数名 | 参数描述 | 输出参数 | 输出数据类型 |
模型 | 输出算法训练后模型存储的地址。 | 模型地址 | 字符 |
算法参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
建模类型 | 选择使用分类模型还是回归模型进行建模。 | 是 | 分类 |
|
选取最近邻样本数 | 否 | 5 | [1,100] | |
权重 | 均匀:每个邻域中的所有点均被加权。距离:权重和距离成反比,距离预测目标越近具有越高的权重 | 否 | 均匀 |
|
寻找最近样本的算法 | 自动:根据样本数据自动刷选合适的算法。球树:构建“球树”算法模型。KD树:“kd树”算法。暴力搜索 :使用蛮力搜索,即或相当于KNN算法,需遍历所有样本数据与目标数据的距离,进而按升序排序从而选取最近的K个值,采用投票得出结果 | 否 | 自动 |
|
测试集比例 | 测试模型的数据占总输入数据的比例,用于计算模型的评价指标。 | 是 | 0.2 | [0,1] |
测试集生成方式 | 根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。
| 是 | 随机 |
|
其他参数
参数名 | 参数描述 |
模型结果 | 查看建模成功后的模型评价结果或发布模型。 |