支持向量机

本文为您介绍支持向量机组件。

功能说明

支持向量机组件支持使用支持向量机算法对分类或回归问题进行建模。支持向量机(SVM)是在分类分析中分析数据的监督式学习模型与相关的学习算法,也被拓展运用于回归问题。

支持向量机在高维度或无穷维度空间中,构建一个超平面或者一系列的超平面,可以用于分类、回归或者别的任务。 直观地看,借助超平面去实现一个好的分割, 能在任意类别中使最为接近的训练数据点具有最大的间隔距离(即所谓的函数余量),这样做是因为通常更大的余量能有更低的分类器泛化误差。

计算逻辑原理

  • 支持向量机分类:就是找到一个平面,让两个分类集合的支持向量或者所有的数据离分类平面最远。

  • 支持向量机回归:就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

特征变量

配置模型特征列

整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

目标变量

配置模型目标列

  • 分类:整数或浮点数或字符

  • 回归:整数或浮点数

说明

若存在非数值数据,则会抛出异常。

  • CSV组件。

  • IGateOffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

模型端口

参数名

参数描述

输出参数

输出数据类型

模型

输出算法训练后模型存储的地址。

模型地址

字符

算法参数

参数名

参数描述

是否必填

参数默认值

参数范围

建模类型

选择使用分类模型还是回归模型进行建模。

分类

  • 分类

  • 回归

错误项的惩罚系数

惩罚系数越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小惩罚系数的话,容许训练样本中有一些误分类错误样本,泛化能力强。对于训练样本带有噪声的情况,一般采用后者,把训练样本集中错误分类的样本作为噪声

1.0

[0,99999999]

核函数类型

指定算法中要使用的内核类型

径向

  • 线性

  • 多项式

  • 径向

  • sigmoid

核函数系数

核函数系数方式为手动设定时需配置

1

[0, 9999999]

是否使用缩小的启发式方法

最大迭代次数

求解程序收敛所需的最大迭代次数。不填默认为-1(代表无限制)

-1

[-1,

99999999]

测试集比例

测试模型的数据占总输入数据的比例,用于计算模型的评价指标。

0.2

[0,1]

测试集生成方式

根据选定方式,选取部分数据作为测试集,剩余部分作为训练集。

  • 随机:按比例随机从输入数据中截取n条数据作为测试集。

  • 头部:按比例将输入数据前n条数据作为测试集。

  • 尾部:按比例将输入数据后n条数据作为测试集。

随机

  • 随机

  • 头部

  • 尾部

核函数类型:多项式

参数名

参数描述

是否必填

参数默认值

参数范围

核函数维度

/

3

[1, 100]

核函数类型:径向、多项式、sigmoid

参数名

参数描述

是否必填

参数默认值

参数范围

核函数系数方式

比例:系数=1/(特征变量数*特征的标准差)

自动:系数=1/特征变量数

比例

  • 比例

  • 自动

  • 手动设定

核函数系数方式:手动设定

参数名

参数描述

是否必填

参数默认值

参数范围

核函数系数

/

1

[0, 9999999]

核函数类型:多项式、sigmoid

参数名

参数描述

是否必填

参数默认值

参数范围

常数项

/

0.0

[-9999999,9999999]

建模类型:分类

参数名

参数描述

是否必填

参数默认值

参数范围

是否启用概率估计

/

分类权重

用于表示分类模型中各种类型的权重。

None

可以是一个字典或者’balanced’字符串,默认为不输入,也就是不考虑权重,即为None。

其他参数

参数名

参数描述

模型结果

可以查看建模成功后的模型评价结果或发布模型。