阿里云图数据库自动机器学习(Graph Database Auto Machine Learning,简称GDB Automl)支持数据处理、模型训练、数据预测和导出部署。本文为您详细介绍GDB Automl的产品功能。

数据处理

  1. 数据导入

    目前版本支持从图数据库GDB导入数据、从文件中导入(包括从CSV文件或压缩包文件)、从数据库SQL表导入。未来还将支持直接从阿里云对象存储服务OSS中导入数据或借助DataWorks工具进行各种格式的数据导入。

  2. 数据解析

    GDB Automl将导入和上传的数据进行自动解析,您可以自动配置解析数据源和解析器(支持CSV、ARFF、XLS、ORC等多种数据格式的解析),解析后可查看数据的样本量,并查看样本特征摘要,解析特征分布情况。

  3. 数据切分

    支持按照自定义比例对数据帧进行拆分,可以快捷划分训练集、验证集和测试集。GDB Automl将随机对数据按照比例进行切分,得到拆分后的数据帧文件。

模型训练

  1. 运行自动机器学习

    GDB Automl提供运行自动机器学习功能,您可以配置实验基本参数(包括训练数据帧、验证数据帧和目标特征列,用于排行榜对模型排序的第一指标等)和训练参数(例如K折交叉验证折数,指定训练权重列、排序指标、训练时忽略的特征列、模型停止的条件等)。配置好参数后单击建立模型,可以自动地进行模型训练,调参优化的过程。运行结束后会生成模型的排行榜数据,可以查看模型的详细参数和训练验证指标。

  2. 单个模型训练

    当您希望采用特定模型对导入数据进行训练时,可以选择单个模型,设置更具体的模型参数进行该模型的自动训练和优化。当前版本支持的机器学习模型包括:聚合器(Aggregator)、 Cox风险比例回归模型(CoxPH)、深度学习(DeepLearning)、分布式随机森林(DRF)、梯度提升模型(GBM)、广义线性模型(GLM)、广义低阶模型(GLRM)、孤立森林(IF)、K均值聚类(K-means)、朴素贝叶斯模型(Naive Bayes)、主成分分析(PCA)、规则拟合(RuleFit)、集成学习(Stacked Ensemble)、目标编码器(TargetEncoder)和词向量模型(Word2Vec)等多种经典机器学习和深度学习模型。您同样可以对选择的模型进行实验基本参数和训练参数的设置,并建立模型进行自动训练过程。

数据预测

模型训练结束后,您可以进行预测分析过程,使用模型在测试数据上进行评估。从训练产生的模型列表中选择一个模型,并选择用于预测的数据帧,执行预测过程,GDB Automl将自动对测试数据进行处理,执行预测任务。执行结束后可以查看测试数据集的各个指标效果,混淆矩阵以及其他统计数据等。

导出部署

GDB Automl支持将训练产生的模型生成POJO(Java原生对象)离线部署和Python在线服务调用两种方式。您可以直接下载模型POJO对象文件到本地,进行离线部署分析或者通过Python调用在线服务。更多信息,请参见POJO部署预测Python部署预测