评测集-大模型服务平台百炼(Model Studio)-阿里云帮助中心

评测集用于存储和管理所有评测任务数据，可通过自动生成或手动上传的方式创建。当前支持对话分析和知识问答两种评测集类型。

对话分析：适用于人工评测，通过构造单轮或多轮对话，对应用的输出结果进行人工打分和评估。
知识问答：适用于自动评测，通过提供问题、标准答案和关键词，利用大模型对应用输出结果的准确性进行自动打分和评估。

评测集类型

对话分析

支持的文件格式：.xls、.xlsx。

字段说明：

字段	说明
Prompt	用户的输入，通常是一个问题或一个指令。
Completion	针对 Prompt 的参考答案，用于评估模型实际生成的回答。
SessionId	用于标识一个完整的对话会话（Session）。具有相同 `SessionId` 的多行数据将被视为一个连续的多轮对话。

示例：

Prompt(user)	Completion(assistant)	SessionId	说明
亚运会在哪个城市举行?	杭州。	49aa5bc0-76de-471d-9f50-c8f7710bbc9d	多轮对话 - 第1轮
哪年举行？	2023年	49aa5bc0-76de-471d-9f50-c8f7710bbc9d	多轮对话 - 第2轮

知识问答

支持的文件格式：.jsonl。

字段说明：

字段	说明
query	智能体接收的用户输入问题。
queryType	问题分类标签，如事实型、分析型、比较型、教程型等，支持自定义其他类型。
referenceAnswer	标准答案，用于评估回答的准确性、完整性和相关性。
fineKeywords	细粒度关键词，答案应包含的具体信息点（嵌套列表格式）。
coarseKeywords	粗粒度关键词，核心主题词，通常 1-3 个。

说明

coarseKeywords（粗粒度关键词）
- 含义与作用：代表查询的核心主题词（1-3个），用于判断检索内容是否存在主题偏离。
- 示例：["外滩", "浦东"]

fineKeywords（细粒度关键词）

含义与作用：构成标准答案所必需的关键信息点，用于评估回答的信息完整性。

格式与示例：采用嵌套数组 [[ ]] 格式，每个子数组 [ ] 代表一个独立信息点。

[
  ["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"],
  ["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"],
  ["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"],
  ["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"]
]

示例：

{"query":"外滩的夜景与浦东的新楼林立景象有什么不同？","fineKeywords":[["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"],["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"],["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"],["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"]],"referenceAnswer":"外滩的夜景充满了欧陆情调，古老建筑物在灯光下显得浪漫迷人。而浦东的新楼林立景象则展现了上海迅速发展的现代化面貌，高楼大厦如金茂大厦和东方明珠等建筑通体晶莹透明，灯光璀璨，与外滩形成了鲜明对比，体现了上海新旧交融的城市特色。","coarseKeywords":["外滩","浦东"],"queryType":"比较型(Comparative)"}
{"query":"上海科技馆由哪几个主要展馆组成？","fineKeywords":[["由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成"]],"referenceAnswer":"上海科技馆由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成。","coarseKeywords":["上海科技馆"],"queryType":"事实型(Factual)"}
{"query":"北京的王府井和三里屯在购物体验上有什么不同？","fineKeywords":[["乘车去往王府井，各种大商场去逛","如果觉得不过瘾，可以下午继续赶去三里屯那个大大的时尚商圈继续疯狂逛街购物吧"],["中午吃在王府井，可以选择在各大商场里吃，大众餐饮店应有尽有；也可以去王府井小吃街吃些，地道风味小吃，爆肚，凉粉，鱿鱼串，都能满足你的味蕾"],["晚上，吃在三里屯，购在三里屯，喝在三里屯，玩在三里屯"]],"referenceAnswer":"王府井和三里屯在购物体验上有以下不同点：王府井以大型商场为主，提供各种品牌商品，适合大众消费；而三里屯则是一个时尚商圈，更加注重潮流趋势与独特性，汇集了众多国际知名品牌及设计师店铺。此外，在餐饮方面，王府井小吃街提供了丰富的地道北京风味小吃，如爆肚、凉粉等；相比之下，三里屯则拥有更多精致餐厅及时尚酒吧，为顾客带来多样化的夜生活选择。总体来说，王府井更偏向于传统与大众化，而三里屯则代表了现代都市的活力与前卫风格。","coarseKeywords":["王府井","三里屯"],"queryType":"比较型(Comparative)"}

创建评测集

自动生成

基于大模型，依据指定的知识库自动生成评测集。仅支持生成知识问答类型的评测任务，详情请参考自动评测。

手动上传

手动上传支持对话分析和知识问答两种类型的评测集。

准备评测集文件，格式要求如下：

评测集类型	文件格式	说明
对话分析	`.xls`、`.xlsx`	单次上传最多支持 10 个文件，单个文件不超过 20MB。
知识问答	`.jsonl`	单次上传最多支持 10 个文件，单个文件不超过 20MB。

进入评测集页面，单击页面右上角创建评测集。
输入评测集名称，选择评测集类型，上传评测集文件，单击确认。

修改并发布评测集

进入评测集页面，点击右侧的查看进入评测集详情页。
如果需要修改评测集内容，单击右上角增量导入，支持如下修改方式：
- 单条新增：手动添加一条新的评测数据。
- 批量导入：通过上传文件一次性向评测集中追加多条新数据。上传文件的格式和字段要求必须与当前评测集类型一致。
- 全量覆盖：导入全新的评测集文件，完全覆盖当前数据。上传文件的格式和字段要求必须与当前评测集类型一致。
完成修改后，单击发布 > 确认发布，即可将修改后的评测集发布为新的版本。