评测数据集管理

按照样例模板构造评测数据,评测数据中包含至少50个问题和答案,后续通过评测任务对问答效果进行评测。

操作步骤

  1. 登录OpenSearch控制台

  2. 选择目标地域,切换到OpenSearch-LLM智能问答版

  3. 在实例列表单击目标实例右侧的管理,在左侧导航栏选择效果对比

  4. 评测数据集页签下,单击创建评测数据集,输入评测数据集名称,参照样例数据格式以Excel或者JSON文件上传评测数据集。

    说明

    为获取准确的评测效果,要求评测数据集至少包含50个问题。

    image

    下载:下载评测数据集。

    删除:评测任务中评测数据集

下一步

评测任务管理

测试数据集

一、大学网站招生数据集

概述:原始文档库来源于中国人民大学招生网站,内容多关于招生政策、院系介绍等

来源:https://arxiv.org/abs/2406.05654

数据集:domainrag_xlsx_corpus.xlsx

QA集:basic_qa_anslen1.xlsx

二、天池基于保险条款的问答比赛数据集

概述:原始文档库内容来源于多种保险产品及其相应条款

来源:https://tianchi.aliyun.com/competition/entrance/532194/information

数据集:tianchi_doc_with_title.json

QA集:dev_qa_sample_50_for_llm.xlsx

三、crud新闻数据集

概述:原始文档库内容来源于中文新闻网站(2023.07之后的新闻)

来源:https://arxiv.org/abs/2401.17043

数据集(受控制台大小要求拆分为三份):

crud_corpus_for_llm_1.json

crud_corpus_for_llm_2.json

crud_corpus_for_llm_3.json

QA集:crud_1doc_qa_sample100_for_llm.xlsx