评测集

评测集用于存储和管理所有评测任务数据,可通过自动生成或手动上传的方式创建。当前支持对话分析和知识问答两种评测集类型。

  • 对话分析:适用于人工评测,通过构造单轮或多轮对话,对应用的输出结果进行人工打分和评估。

  • 知识问答:适用于自动评测,通过提供问题、标准答案和关键词,利用大模型对应用输出结果的准确性进行自动打分和评估。

评测集类型

对话分析

  • 支持的文件格式:.xls.xlsx

  • 字段说明:

    字段

    说明

    Prompt

    用户的输入,通常是一个问题或一个指令。

    Completion

    针对 Prompt 的参考答案,用于评估模型实际生成的回答。

    SessionId

    用于标识一个完整的对话会话(Session)。具有相同 SessionId 的多行数据将被视为一个连续的多轮对话。

  • 示例:

    Prompt(user)

    Completion(assistant)

    SessionId

    说明

    亚运会在哪个城市举行?

    杭州。

    49aa5bc0-76de-471d-9f50-c8f7710bbc9d

    多轮对话 - 第1

    哪年举行?

    2023

    49aa5bc0-76de-471d-9f50-c8f7710bbc9d

    多轮对话 - 第2

知识问答

  • 支持的文件格式:.jsonl

  • 字段说明:

    字段

    说明

    query

    智能体接收的用户输入问题。

    queryType

    问题分类标签,如事实型、分析型、比较型、教程型等,支持自定义其他类型。

    referenceAnswer

    标准答案,用于评估回答的准确性、完整性和相关性。

    fineKeywords

    细粒度关键词,答案应包含的具体信息点(嵌套列表格式)。

    coarseKeywords

    粗粒度关键词,核心主题词,通常 1-3 个。

    说明
    • coarseKeywords(粗粒度关键词)

      • 含义与作用:代表查询的核心主题词(1-3个),用于判断检索内容是否存在主题偏离。

      • 示例["外滩", "浦东"]

    • fineKeywords(细粒度关键词)

      • 含义与作用:构成标准答案所必需的关键信息点,用于评估回答的信息完整性。

      • 格式与示例:采用嵌套数组 [[ ]] 格式,每个子数组 [ ] 代表一个独立信息点。

        [
          ["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"],
          ["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"],
          ["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"],
          ["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"]
        ]
  • 示例:

    {"query":"外滩的夜景与浦东的新楼林立景象有什么不同?","fineKeywords":[["外滩上的古老建筑物充满了欧陆情调,浪漫迷人"],["对岸的浦东发展迅速,新楼林立,与外滩旧区形成鲜明对比,让人感受到上海的生机勃勃"],["外滩的夜景使人仿佛处于童话般的世界,灯光的迷城"],["浦东88层楼高的金茂大厦通体晶莹透明,和东方明珠上一闪一闪的灯光遥相呼应,煞是壮观"]],"referenceAnswer":"外滩的夜景充满了欧陆情调,古老建筑物在灯光下显得浪漫迷人。而浦东的新楼林立景象则展现了上海迅速发展的现代化面貌,高楼大厦如金茂大厦和东方明珠等建筑通体晶莹透明,灯光璀璨,与外滩形成了鲜明对比,体现了上海新旧交融的城市特色。","coarseKeywords":["外滩","浦东"],"queryType":"比较型(Comparative)"}
    {"query":"上海科技馆由哪几个主要展馆组成?","fineKeywords":[["由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成"]],"referenceAnswer":"上海科技馆由天地馆、生命馆、智慧馆、创造馆、未来馆等五个主要展馆和临展馆组成。","coarseKeywords":["上海科技馆"],"queryType":"事实型(Factual)"}
    {"query":"北京的王府井和三里屯在购物体验上有什么不同?","fineKeywords":[["乘车去往王府井,各种大商场去逛","如果觉得不过瘾,可以下午继续赶去三里屯那个大大的时尚商圈继续疯狂逛街购物吧"],["中午吃在王府井,可以选择在各大商场里吃,大众餐饮店应有尽有;也可以去王府井小吃街吃些,地道风味小吃,爆肚,凉粉,鱿鱼串,都能满足你的味蕾"],["晚上,吃在三里屯,购在三里屯,喝在三里屯,玩在三里屯"]],"referenceAnswer":"王府井和三里屯在购物体验上有以下不同点:王府井以大型商场为主,提供各种品牌商品,适合大众消费;而三里屯则是一个时尚商圈,更加注重潮流趋势与独特性,汇集了众多国际知名品牌及设计师店铺。此外,在餐饮方面,王府井小吃街提供了丰富的地道北京风味小吃,如爆肚、凉粉等;相比之下,三里屯则拥有更多精致餐厅及时尚酒吧,为顾客带来多样化的夜生活选择。总体来说,王府井更偏向于传统与大众化,而三里屯则代表了现代都市的活力与前卫风格。","coarseKeywords":["王府井","三里屯"],"queryType":"比较型(Comparative)"}

创建评测集

自动生成

基于大模型,依据指定的知识库自动生成评测集。仅支持生成知识问答类型的评测任务,详情请参考自动评测

手动上传

手动上传支持对话分析知识问答两种类型的评测集。

  1. 准备评测集文件,格式要求如下:

    评测集类型

    文件格式

    说明

    对话分析

    .xls.xlsx

    单次上传最多支持 10 个文件,单个文件不超过 20MB。

    知识问答

    .jsonl

    单次上传最多支持 10 个文件,单个文件不超过 20MB。

  2. 进入评测集页面,单击页面右上角创建评测集

  3. 输入评测集名称,选择评测集类型,上传评测集文件,单击确认

修改并发布评测集

  1. 进入评测集页面,点击右侧的查看进入评测集详情页。

  2. 如果需要修改评测集内容,单击右上角增量导入,支持如下修改方式:

    • 单条新增: 手动添加一条新的评测数据。

    • 批量导入: 通过上传文件一次性向评测集中追加多条新数据。上传文件的格式和字段要求必须与当前评测集类型一致。

    • 全量覆盖: 导入全新的评测集文件,完全覆盖当前数据。上传文件的格式和字段要求必须与当前评测集类型一致。

  3. 完成修改后,单击发布 > 确认发布,即可将修改后的评测集发布为新的版本。