本文为您介绍PAI-Designer支持的组件列表。

组件类型 组件 描述
源/目标 读OSS数据 该组件用来读取对象存储OSS Bucket路径下的文件或文件夹。
读CSV文件 该组件支持从OSS、HTTP、HDFS读取CSV类型的文件数据。
读数据表 该组件用于读取MaxCompute表数据,默认读取本项目的表数据。
写数据表 该组件支持将上游数据写入MaxCompute中。
数据预处理 随机采样 该组件按照给定的比例或者数目,对输入进行随机独立采样。
加权采样 以加权方式生成采样数据。
过滤与映射 该组件可以对数据按照过滤表达式进行筛选,并且您可以修改输出字段名称。
分层采样 给定一个分组列,该组件按照这些列的不同值,将输入数据分成不同的组,并在每组中分别进行随机采样。
JOIN 该组件将两张表通过关联信息,合成一张表,并确定输出的字段,与SQL的JOIN语句功能类似。
合并列 该组件将两张表的数据按列合并,需要表的行数保持一致,否则报错。如果两张表只有一张存在分区,则分区表需要连接第二个输入端口。
合并行(UNION) 该组件是将两张表的数据按行合并,左表及右表选择输出的字段个数以及类型应保持一致。整合了UNION和UNION ALL的功能。
类型转换 该组件是可以将任意类型特征转成STRING、DOUBLE和INT特征,并支持转换异常时的缺失值填充。
增加序号列 该组件是提供的增加序号列组件,您可以在数据表的第一列追加ID列。

拆分

该组件是对数据进行随机拆分,用于生成训练和测试集。

缺失值填充

您可以通过可视化或PAI命令的方式,配置该组件参数。

归一化

该组件支持将稠密数据或稀疏数据进行归一化处理。

标准化

该组件分为可分化方式和PAI命令方式生成标准化实例。

KV2Table

该组件可以将KV(Key:Value)格式的表为普通表格式。

Table2KV

该组件分为可分化方式和PAI命令方式,可以转化普通表为KV(Key:Value)格式的表。
特征工程

特征重要性过滤

特征重要性过滤组件为线性特征重要性、GBDT特征重要性和随机森林特征重要性等组件提供过滤功能,支持过滤TopN的特征。
主成分分析 该组件是研究如何通过少数主成分揭示多个变量间的内部结构,考察多个变量间相关性的一种多元统计方法。
特征尺度变换 您可以通过该组件对稠密或稀疏的数值类特征进行常见的尺度变换。
特征离散 该组件是将连续特征按照一定的规则进行离散化。
特征异常平滑 该组件可以将输入特征中包含异常的数据平滑到一定区间,支持稀疏和稠密数据格式。
奇异值分解 该组件是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵求对角化的推广。
异常检测 该组件用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。
线性模型特征重要性 该组件包括线性回归和二分类逻辑回归,支持稀疏和稠密数据格式。
离散值特征分析 该组件用于统计离散特征的分布情况。
随机森林特征重要性 您可以通过该组件进行计算特征重要性。
过滤式特征选择 该组件将根据您使用的不同特征选择方法,从所有稀疏或稠密格式的特征数据中选择并过滤出TopN的特征数据。
特征编码 该组件是将非线性特征通过GBDT编码成线性特征。
one-hot编码 您可以通过该组件后数据会变成稀疏,输出结果也是KV的稀疏结构。
统计分析 数据视图 通过数据视图组件,您可以可视化地了解特征与标签列的分布情况及特征的特点,以便后续进行数据分析。
协方差 该组件用于衡量两个变量的总体误差。

经验概率密度图

该组件是采用经验分布和内核分布两种算法。

全表统计

该组件用于统计全表,或某些选中的列。

卡方拟合性检验

该组件用于变量为类别型变量的场景,旨在检验单个多项分类型变量在各分类间的实际观测次数与理论次数是否一致,其零假设为观测次数与理论次数无差异。
箱线图 箱形图是一种用作显示一组数据分散情况的统计图。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
散点图 散点图是指在回归分析中,数据点在直角坐标系平面上的分布图。
相关系数矩阵 相关系数算法用于计算一个矩阵中每列之间的相关系数,取值范围为[-1,1]。系统计算时,count数按两列间同时非空的元素个数计算,两两列之间可能不同。

双样本T检验

该组件基于统计学原理用来检验两个样本的均值是否有显著差异。

单样本T检验

该组件旨在检验某个变量的总体均值与某个指定值之间是否存在显著差异,其检验的样本必须总体服从正态分布。

正态检验

该组件通过观测值判断总体是否服从正态分布,是统计判决中重要的一种特殊的拟合优度假设检验。

洛伦兹曲线

通过该组件,您可以直观地看到一个国家或地区收入分配状况。

百分位

该组件是统计学术语,用于计算数据表列数据的百分位。

皮尔森系数

该组件是一种线性相关系数,用于反映两个变量线性相关程度的统计量。

直方图

该组件(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。
机器学习 预测 该组件的输入为训练模型和预测数据,输出为预测结果。
线性支持向量机 该组件是基于统计学习理论的一种机器学习方法,通过寻求结构风险最小化,提高学习机泛化能力,从而实现经验风险和置信范围最小化。
逻辑回归二分类 该组件是一个二分类算法,支持稀疏及稠密数据格式。
GBDT二分类 该组件的原理是设置阈值,如果特征值大于阈值,则为正例,反之为负例。
PS-SMART二分类 参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decesion Tree)基于PS实现的迭代算法。
PS逻辑回归二分类 该组件是经典的二分类算法,广泛应用于广告及搜索场景。
PS-SMART多分类 参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decesion Tree)基于PS实现的迭代算法。
K近邻 该组件进行分类的原理是针对预测表的每行数据,从训练表中选择与其距离最近的K条记录,将这K条记录中类别数量最多的类,作为该行的类别。
逻辑回归多分类 该组件是一个二分类算法,PAI提供的逻辑回归可以支持多分类,且支持稀疏及稠密数据格式。
随机森林 该组件是一个包括多决策树的分类器,其分类结果由单棵树输出类别的众数决定。
朴素贝叶斯 该组件是一种基于独立假设的贝叶斯定理的概率分类算法。
K均值聚类 该组件会首先随机选择K个对象作为每个簇的初始聚类中心,然后计算剩余对象与各簇中心的距离,将其分配至距离最近的簇,再重新计算每个簇的聚类中心。
DBSCAN 您可以使用DBSCAN组件构建聚类模型。
高斯混合模型训练 您可以使用高斯混合模型训练组件实现模型分类。
DBSCAN预测 您可以使用DBSCAN预测组件基于DBSCAN训练模型来预测新的点数据所属的簇。
高斯混合模型预测 您可以使用高斯混合模型预测组件基于训练好的高斯混合模型进行聚类预测。
GBDT回归 该组件是一种迭代决策树算法,适用于线性及非线性回归场景。
线性回归 该组件是分析因变量和多个自变量之间的线性关系模型。
PS-SMART回归 该组件致力于解决大规模的离线及在线训练任务,SMART(Scalable Multiple Additive Regression Tree)是GBDT(Gradient Boosting Decesion Tree)基于PS实现的迭代算法。
PS线性回归 该组件是分析因变量和多个自变量之间的线性关系模型,参数服务器PS(Parameter Server)致力于解决大规模的离线及在线训练任务。
二分类评估 该组件是通过计算AUC、KS及F1 Score指标,输出KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart。
回归模型评估 该组件是指基于预测结果和原始结果,评估回归算法模型的优劣性,从而输出评估指标及残差直方图。
聚类模型评估 该组件是基于原始数据和聚类结果,评估聚类模型的优劣性,从而输出评估指标。
混淆矩阵 该组件适用于监督学习,与无监督学习中的匹配矩阵对应。
多分类评估 该组件是指基于分类模型的预测结果和原始结果,评估多分类算法模型的优劣性,从而输出评估指标(例如Accuracy、Kappa及F1-Score)。
深度学习框架组件 PyTorch使用指南 在深度学习组件列表中找到PyTorch组件,同时找到读OSS数据组件,PyTorch只支持读取OSS数据。
Caffe使用指南 该组件是一个开源的深度学习框架。

MXNet使用指南

该组件是一个深度学习框架,支持命令和符号编程,可以运行在CPU和GPU集群上。

深度学习框架及开通说明

阿里云机器学习平台支持深度学习框架,同时提供了功能强大的GPU计算集群。您可以使用这些框架及硬件资源来使用深度学习算法。
时间序列 x13_arima 该组件是基于开源X-13ARIMA-SEATS封装的针对季节性调整的Arima算法。
x13_auto_arima 该组件包括自动ARIMA模型选择程序,主要基于TRMO(1996)及后续修订中实施的Gomez和Maravall(1998)的程序。
Prophet 该组件对每一行的MTable数据,进行Prophet时间序列预测,给出下一时间段的预测结果。
MTable聚合 该组件将Table按照分组列聚合成MTable。
MTable展开 该组件将MTable展开成Table。
推荐方法 FM算法 FM(Factorization Machine)算法兼顾特征之间的相互作用,是一种非线性模型,适用于电商、广告及直播的推荐场景。

ALS矩阵分解

交替最小二乘ALS(Alternating Least Squares)算法的原理是对稀疏矩阵进行模型分解,评估缺失项的值,从而得到基本的训练模型。

swing训练

该组件是一种Item召回算法,您可以使用swing训练组件基于User-Item-User原理衡量Item的相似性。

swing推荐

该组件是swing的批处理预测组件,您可以使用该组件基于swing训练模型和预测数据进行离线预测。

协同过滤etrec

etrec是基于item的协同过滤算法,输入为两列,输出为item之间的相似度TopN。
向量召回评估 向量召回评估组件计算召回的hitrate结果。hitrate作为结果好坏的评价,hitrate越高表示训练产出的向量去召回向量的结果越准确。
异常检测 局部异常因子异常检测 该组件是根据数据样本的局部异常因子值(Local Outlier Factor, LOF)判断样本是否异常。本文为您介绍局部异常因子异常检测的参数配置。

IForest异常检测

该组件使用sub-sampling算法,降低了算法的计算复杂度,可以识别数据中的异常点,在异常检测领域有显著的应用效果。

One-Class SVM异常检测

该组件与传统SVM不同,是一种非监督的学习算法。您可以使用One-Class SVM异常检测通过学习边界对异常点进行预测。
自然语言处理 文本摘要预测 该组件旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息,新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要预测组件,调用指定预训练模型对新闻文本进行预测,从而生成新闻标题。
文本分类预测(MaxCompute) 该组件用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。
文本匹配预测(MaxCompute) 该组件用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。
序列标注预测(MaxCompute) 该组件用来加载训练好的模型,对输入数据表进行预测,并产出预测结果。

BERT文本向量化(MaxCompute)

该组件是以原始文本作为输入,系统提取特征后输出一个向量序列。

文本打标预测(MaxCompute)

该组件可以快速抽取文本中蕴含的标签,对理解文本语义、精确建模有重要作用。

文本分类训练(MaxCompute)

该算法组件集成了基于BERT的文本分类模型、传统深度文本分类(例如TextCNN)模型及PAI自研的DGCNN模型。

文本匹配训练(MaxCompute)

该组件的输入为两个句子,输出它们是否匹配。

序列标注训练(MaxCompute)

该组件是将输入序列的每个TOKEN做为一个多分类问题,采用Google原论文中的序列标注方法,实现对输入序列TOKEN进行分类,通常用于分词、词性标注和命名实体识别等。

文本摘要训练

该组件旨在从冗长、重复的文本序列中抽取、精炼或总结出其中的要点信息。新闻标题摘要是文本摘要的一个特例。您可以使用文本摘要训练组件进行模型训练,生成新闻标题,用来概括新闻的中心思想和重点信息。

Split Word

该组件基于AliWS(Alibaba Word Segmenter)词法分析系统,对指定列的内容进行分词,分词后的各个词语之间以空格分隔。

三元组转kv

该组件用于将三元组表(row,col,value)转换为kv表(row,[col_id:value])

字符串相似度

该组件是机器学习领域的一个基本操作,主要用于信息检索、自然语言处理和生物信息学等领域。
字符串相似度-topN 该组件用于计算字符串相似度并筛选出最相似的Top N个数据。
停用词过滤 该组件是文本分析中的一个预处理方法,用于过滤分词结果中的噪声(例如的、是或啊)。

ngram-count

该组件是语言模型训练其中一个步骤。在词的基础上生成n-gram,并统计在全部语料集上,对应n-gram的个数。
文本摘要 该组件是文献中简单连贯的短文,能够全面准确地反映该文献的中心思想。自动文摘利用计算机自动从原始文献中提取摘要内容。
关键词抽取 该组件是自然语言处理中的重要技术之一,具体是指从文本中将与这篇文章意义相关性较强的一些词抽取出来。
句子拆分 将一段文本按标点进行句子拆分。该组件主要用于文本摘要前的预处理,将一段文本拆分成一句一行的形式。
语义向量距离 基于算法语义向量结果(如Word2Vec生成的词向量),计算给定的词(或者句子)的扩展词(或者扩展句),即计算其中某一向量距离最近的向量集合。其中一个用法是,基于Word2Vec生成的词向量结果,根据输入的词返回最为相似的词列表。
Doc2Vec 您可以通过Doc2Vec算法组件将文章映射为向量。输入为词汇表,输出为文档向量表、词向量表或词汇表。
条件随机场 条件随机场CRF(conditional random field)是给定一组输入随机变量条件下,另一组输出随机变量条件的概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。
文章相似度 文章相似度是在字符串相似度的基础上,基于词,计算两两文章或者句子之间的相似度。
PMI 该组件算法统计若干文章中所有词的共现情况,计算两两之间的PMI(point mutual information)。
条件随机场预测 该组件是基于linearCRF在线预测模型的算法组件,主要应用于处理序列标注问题。
Split Word(生成模型) 该组件基于AliWS(Alibaba Word Segmenter)词法分析系统,根据参数和自定义词典生成分词模型。
词频统计 该组件是指输入一些字符串(手动输入或者从指定的文件读取),用程序来统计这些字符串中总共有多少个单词,每个单词出现的次数。
TF-IDF 该组件是一种用于资讯检索与文本挖掘的常用加权技术。通常在搜索引擎中应用,可以作为文件与用户查询之间相关程度的度量或评级。
PLDA 在机器学习PAI平台,您可以通过给PLDA组件设置topic参数值,从而让每篇文档抽象出不同主题。
Word2Vec Word2Vec算法组件利用神经网络,通过训练,将词映射为K维度空间向量,且支持对表示词的向量进行操作并和语义相对应。输入为单词列或词汇表,输出为词向量表和词汇表。
网络分析 树深度 该组件能够输出每个节点的所处深度和树ID。
k-Core 该组件用于在图中找出符合指定核心度的紧密关联的子图结构,节点核数的最大值被称为图的核数。
单源最短路径 该组件使用Dijkstra算法,给定起点,输出该点和其他所有节点的最短路径。
PageRank 该组件起源于网页的搜索排序,即使用网页的链接结构计算每个网页的等级排名。
标签传播聚类 该组件LPA(Label Propagation Algorithm)是基于图的半监督学习方法,其基本思路是节点的标签(community)依赖其相邻节点的标签信息,影响程度由节点相似度决定,并通过传播迭代更新达到稳定。
标签传播分类 该组件为半监督的分类算法,原理为用已标记节点的标签信息去预测未标记节点的标签信息。
Modularity 该组件是一种评估社区网络结构的指标,用来评估网络结构中划分出来社区的紧密程度,通常0.3以上是比较明显的社区结构。
最大连通子图 在无向图G中,若从顶点A到顶点B有路径相连,则称A和B是连通的。在图G中存在若干子图,如果其中每个子图中所有顶点之间都是连通的,但在不同子图间不存在顶点连通,那么称图G的这些子图为最大连通子图。
点聚类系数 该组件是在无向图G中,计算每一个节点周围的稠密度,星状网络稠密度为0,全联通网络稠密度为1。
边聚类系数 该组件算法是指在无向图G中,计算每一条边周围的稠密度。
计数三角形 该组件是指在无向图G中,输出所有三角形。
金融板块 数据转换模块 通过该组件您可以对数据进行归一化、离散化、Index化或WOE转换。
评分卡训练 该组件信用风险评估领域常用的建模工具,其原理是通过分箱输入将原始变量离散化后再使用线性模型(逻辑回归或线性回归等)进行模型训练,其中包含特征选择及分数转换等功能。

评分卡预测

该组件是对原始数据根据评分卡训练组件产出的模型结果进行预测打分。
分箱 该组件可以进行特征离散化,即将连续的数据进行分段,使其变为多个离散化区间。分箱组件支持等频分箱、等宽分箱及自动分箱。
样本稳定指数(PSI) 该组件是衡量样本变化所产生的偏移量的一种重要指标,通常用于衡量样本的稳定程度。
视觉算法 数据转tfrecord 该组件可以将标注生成的数据转换成tfrecord格式,从而用于图像类模型训练。

图像分类训练

您可以使用图像分类训练算法组件对其进行模型训练,从而获得用于推理的图像分类模型。
图像分类训练(torch) 如果您的业务场景涉及图像分类,则可以通过图像分类训练(torch)组件构建图像分类模型,从而进行模型推理。

视频分类训练

您可以使用视频分类训练算法组件对其进行模型训练,从而获得用于推理的视频分类模型。

图像检测训练

您通过该组件构建目标检测模型,将图像中的某些高风险的实体进行框选检测。

图像自监督训练

您可以通过该组件将原始的尚未标注的图像直接进行训练,从而获得用于图像特征提取的模型。

图像度量学习训练(raw)

您通过该组件构建度量学习模型,从而进行模型推理。

图像分割训练

您可以通过该组件对其进行模型训练,从而获得用于推理的图像分割模型。

端到端的文字识别训练

您通过该组件获得的训练模型,能够检测识别任意角度、任意形状的文字。

图像关键点训练

如果您的业务场景涉及人体相关的关键点检测,则可以通过图像关键点训练组件构建关键点模型,从而进行模型推理。

通用图像预测

您可以使用通用图像预测组件对该模型进行离线推理,从而对输入数据进行相关预测。

通用视频预测

对于通过视频训练类组件获得的视频模型,您可以使用通用视频预测组件对其进行离线推理。
文字检测识别组件 该组件基于PAI团队自研的OCR算法和阿里云大数据,能够对OCR模型进行离线推理。

模型量化

该组件提供主流的模型量化算法,您可以使用模型量化对模型进行压缩提速,实现高性能推理。

模型剪枝

该组件提供主流的模型剪枝算法AGP(taylorfo),您可以使用模型剪枝对模型进行压缩提速,实现高性能推理。
语音算法 EasyASR数据集构建 该组件可以将WAV格式的音频数据及文本转换成TFRecord格式,可以为ASR和语音分类模型的训练或评估进行数据预处理。
EasyASR语音识别训练 该组件以TFRecord格式的数据作为输入,进行语音识别模型训练。
EasyASR语音分类训练 该组件以TFRecord格式的数据作为输入,进行语音分类模型训练。
EasyASR离线预测(MaxCompute) 该组件可以调用SavedModel模型进行语音识别预测或语音分类预测。
EasyASR离线预测(DLC) 该组件可以调用SavedModel模型,并使用PAI-DLC计算引擎进行语音识别预测或语音分类预测。
工具 离线模型(OfflineModel)相关组件 该组件是存储在MaxCompute中的一种数据结构,基于PAICommand框架的传统机器学习算法生成的模型会以离线模型格式存储在对应的MaxComute项目中,您可以使用离线模型相关组件获取离线模型做离线预测。

语义向量距离(双表)

该组件支持双表输入,两个输入桩分别为左侧的查询表和右侧的字典表,最终输出查询表对应在字典表的TopN距离和排序。

通用模型导出

您可以使用通用模型导出组件,将在MaxCompute中训练得到的模型导出到指定的OSS路径。
自定义算法组件 SQL脚本 该组件是自定义SQL组件,您可以通过SQL脚本编辑器编写SQL语句,并提交至MaxCompute执行。
Python脚本V2 该组件定义安装依赖包及运行自定义的Python函数。
PyAlink脚本 该组件可以进行调用Alink的分类算法做分类、 调用回归算法做回归、调用推荐算法做推荐等。PyAlink脚本也支持与其他Designer的算法组件无缝衔接, 完成业务链路的搭建及效果验证。
Beta组件 Lasso回归训练 该组件是一种压缩估计算法。
Lasso回归预测 该组件支持稀疏、稠密两种数据格式。您可以使用该组件做一些数值型变量的预测,比如贷款额度预测、温度预测等。

岭回归预测

该组件进行做数值型变量的预测,包括房价预测、销售量预测、湿度预测等。
岭回归训练 该组件是对不适定问题进行回归分析时,最常用的正则化方法。
XGBoost训练 该组件算法在Boosting算法的基础上进行了扩展和升级,具有较好的易用性和鲁棒性,被广泛用在各种机器学习生产系统和竞赛领域。当前支持分类和回归。
XGBoost预测 该组件算法在Boosting算法的基础上进行了扩展和升级,具有较好的易用性和鲁棒性,被广泛用在各种机器学习生产系统和竞赛领域。当前支持分类和回归。