模型数据使用说明

更新时间: 2024-07-11 11:07:13

模型数据支持创建不同数据类型的数据集,包括训练集、评测集,支持多版本数据管理,发布后可前往模型调优/评测功能使用。

新增数据集

路径:数据中心 > 数据应用 > 模型数据 > 新增数据集跳转到编辑页面。

image

按照顺序填写以下信息数据集名称 > 数据集类型按需选择对应类型,选择数据导入后,点击确认。

不同的数据集类型选择的数据文件格式不同。请按照页面提示的模板先下载到本地,填充信息后再上传。

说明

训练集:由一轮或多轮的Prompt+Response数据组成,支持ChatML数据格式,可用于模型SFT微调训练。

评测集:仅包含Prompt的数据,可用于模型评测,验证模型效果。

文本生成:用于自然语言训练的训练集或者评测集。

图生文:用于qwen-vl-plus大模型训练时使用的训练集。

image

数据集信息

上传成功后的数据集,将会在列表中展示包含数据集名称、数据集类型、最新版本、数据量、导入状态、发布状态、版本更新时间、操作(查看、导出、发布、删除)内容。

image

查看

点击查看按钮,我们可查看上传的数据信息,并且支持对某一条信息查看完整内容和下载。支持对该表的导出和删除操作。

image

新增版本

支持对当前版本进行修改,选择数据继承类型点击确认。

说明

继承数据:继承模式下,新版本将继承原版本所有的数据,可在此数据基础上进行修改和标注,形成新的版本。

新建数据:新版本内容为空,需要另外导入内容。再次执行上传数据的操作。

image

导出

点击导出按钮,则该条数据集默认下载到本地。image

发布

点击发布按钮,则该条数据集状态更新为发布成功。发布成功后的状态才可以用于模型调优。如果数据集的状态是发布中状态时,可点击右上角刷新按钮进行刷新。

image

删除

支持删除数据集,删除成功后,该条数据集不可见。谨慎操作。

上一篇: 创建知识库 下一篇: 企业知识库-V1(旧)