文档

K近邻

更新时间:

本文为您介绍K近邻组件。

功能说明

K近邻组件支持使用K近邻算法对分类或回归问题进行建模。分类分析时,在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。回归分析时,通过找出一个样本的k个最近邻居,将这些邻居的某个(些)属性的平均值赋给该样本,就可以得到该样本对应属性的值。

计算逻辑原理

最近邻方法的原理是找到距离新点最近的预定义数量的训练样本,并从中预测标签。样本数量可以是用户定义的常数(k-最近邻学习),也可以根据点的局部密度(基于半径的邻居学习)而变化。通常,距离可以是任何度量标准:标准欧几里得距离是最常见的选择。基于邻居的方法被称为非泛化机器学习方法,因为它们只是“记住”其所有训练数据。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

目标变量

配置模型目标列

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

模型端口

参数名

参数描述

输出参数

输出数据类型

模型

输出算法训练后模型存储的地址。

模型地址

字符

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

分类

  • 分类

  • 回归

选取最近邻样本数

5

[1,100]

权重

均匀:每个邻域中的所有点均被加权。距离:权重和距离成反比,距离预测目标越近具有越高的权重

均匀

  • 均匀

  • 距离

寻找最近样本的算法

自动:根据样本数据自动刷选合适的算法。球树:构建“球树”算法模型。KD树:“kd树”算法。暴力搜索 :使用蛮力搜索,即或相当于KNN算法,需遍历所有样本数据与目标数据的距离,进而按升序排序从而选取最近的K个值,采用投票得出结果

自动

  • 球树

  • KD树

  • 暴力搜索

  • 自动

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

其他参数

参数名

参数描述

模型结果

查看建模成功后的模型评价结果或发布模型。