评测集用于存储和管理所有评测任务数据,可通过自动生成或手动上传的方式创建。当前支持对话分析和知识问答两种评测集类型。
评测集类型
对话分析
支持的文件格式:
.xls、.xlsx。字段说明:
字段
说明
Prompt
用户的输入,通常是一个问题或一个指令。
Completion
针对 Prompt 的参考答案,用于评估模型实际生成的回答。
SessionId
用于标识一个完整的对话会话(Session)。具有相同
SessionId的多行数据将被视为一个连续的多轮对话。示例:
Prompt(user)
Completion(assistant)
SessionId
说明
亚运会在哪个城市举行?
杭州。
49aa5bc0-76de-471d-9f50-c8f7710bbc9d
多轮对话 - 第1轮
哪年举行?
2023年
49aa5bc0-76de-471d-9f50-c8f7710bbc9d
多轮对话 - 第2轮
知识问答
支持的文件格式:
.jsonl。字段说明:
字段
说明
query
智能体接收的用户输入问题。
queryType
问题分类标签,如事实型、分析型、比较型、教程型等,支持自定义其他类型。
referenceAnswer
标准答案,用于评估回答的准确性、完整性和相关性。
fineKeywords
细粒度关键词,答案应包含的具体信息点(嵌套列表格式)。
coarseKeywords
粗粒度关键词,核心主题词,通常 1-3 个。
说明coarseKeywords(粗粒度关键词)
含义与作用:代表查询的核心主题词(1-3个),用于判断检索内容是否存在主题偏离。
示例:
["外滩", "浦东"]
fineKeywords(细粒度关键词)
含义与作用:构成标准答案所必需的关键信息点,用于评估回答的信息完整性。
格式与示例:采用嵌套数组
[[ ]]格式,每个子数组[ ]代表一个独立信息点。[ ["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"], ["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"], ["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"], ["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"] ]
示例:
{"query":"外滩的夜景与浦东的新楼林立景象有什么不同?","fineKeywords":[["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"],["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"],["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"],["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"]],"referenceAnswer":"外滩的夜景充满了欧陆情调,古老建筑物在灯光下显得浪漫迷人。而浦东的新楼林立景象则展现了上海迅速发展的现代化面貌,高楼大厦如金茂大厦和东方明珠等建筑通体晶莹透明,灯光璀璨,与外滩形成了鲜明对比,体现了上海新旧交融的城市特色。","coarseKeywords":["外滩","浦东"],"queryType":"比较型(Comparative)"} {"query":"上海科技馆由哪几个主要展馆组成?","fineKeywords":[["由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成"]],"referenceAnswer":"上海科技馆由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成。","coarseKeywords":["上海科技馆"],"queryType":"事实型(Factual)"} {"query":"北京的王府井和三里屯在购物体验上有什么不同?","fineKeywords":[["乘车去往王府井,各种大商场去逛","如果觉得不过瘾,可以下午继续赶去三里屯那个大大的时尚商圈继续疯狂逛街购物吧"],["中午吃在王府井,可以选择在各大商场里吃,大众餐饮店应有尽有;也可以去王府井小吃街吃些,地道风味小吃,爆肚,凉粉,鱿鱼串,都能满足你的味蕾"],["晚上,吃在三里屯,购在三里屯,喝在三里屯,玩在三里屯"]],"referenceAnswer":"王府井和三里屯在购物体验上有以下不同点:王府井以大型商场为主,提供各种品牌商品,适合大众消费;而三里屯则是一个时尚商圈,更加注重潮流趋势与独特性,汇集了众多国际知名品牌及设计师店铺。此外,在餐饮方面,王府井小吃街提供了丰富的地道北京风味小吃,如爆肚、凉粉等;相比之下,三里屯则拥有更多精致餐厅及时尚酒吧,为顾客带来多样化的夜生活选择。总体来说,王府井更偏向于传统与大众化,而三里屯则代表了现代都市的活力与前卫风格。","coarseKeywords":["王府井","三里屯"],"queryType":"比较型(Comparative)"}
创建评测集
自动生成
手动上传
准备评测集文件,格式要求如下:
评测集类型
文件格式
说明
对话分析
.xls、.xlsx单次上传最多支持 10 个文件,单个文件不超过 20MB。
知识问答
.jsonl单次上传最多支持 10 个文件,单个文件不超过 20MB。
进入评测集页面,单击页面右上角创建评测集。
输入评测集名称,选择评测集类型,上传评测集文件,单击确认。
修改并发布评测集
进入评测集页面,点击右侧的查看进入评测集详情页。
如果需要修改评测集内容,单击右上角增量导入,支持如下修改方式:
单条新增: 手动添加一条新的评测数据。
批量导入: 通过上传文件一次性向评测集中追加多条新数据。上传文件的格式和字段要求必须与当前评测集类型一致。
全量覆盖: 导入全新的评测集文件,完全覆盖当前数据。上传文件的格式和字段要求必须与当前评测集类型一致。
完成修改后,单击,即可将修改后的评测集发布为新的版本。