模型数据使用说明
模型数据支持创建不同数据类型的数据集,包括训练集、评测集,支持多版本数据管理,发布后可前往模型调优/评测功能使用。
新增数据集
路径:
跳转到编辑页面。按照顺序填写以下信息
按需选择对应类型,选择 后,点击确认。不同的数据集类型选择的数据文件格式不同。请按照页面提示的模板先下载到本地,填充信息后再上传。
说明
训练集:由一轮或多轮的Prompt+Response数据组成,支持ChatML数据格式,可用于模型SFT微调训练。
评测集:仅包含Prompt的数据,可用于模型评测,验证模型效果。
文本生成:用于自然语言训练的训练集或者评测集。
图生文:用于qwen-vl-plus大模型训练时使用的训练集。
数据集信息
上传成功后的数据集,将会在列表中展示包含数据集名称、数据集类型、最新版本、数据量、导入状态、发布状态、版本更新时间、操作(查看、导出、发布、删除)内容。
查看
点击
按钮,我们可查看上传的数据信息,并且支持对某一条信息查看完整内容和下载。支持对该表的导出和删除操作。新增版本
支持对当前版本进行修改,选择数据继承类型点击确认。
说明
继承数据:继承模式下,新版本将继承原版本所有的数据,可在此数据基础上进行修改和标注,形成新的版本。
新建数据:新版本内容为空,需要另外导入内容。再次执行上传数据的操作。
导出
点击导出按钮,则该条数据集默认下载到本地。
发布
点击发布按钮,则该条数据集状态更新为发布成功。发布成功后的状态才可以用于模型调优。如果数据集的状态是发布中状态时,可点击右上角刷新按钮进行刷新。
删除
支持删除数据集,删除成功后,该条数据集不可见。谨慎操作。