构造和管理评测数据集以评测问答效果-智能开放搜索 OpenSearch-阿里云

备案控制台

输入文档关键字查找

按照样例模板构造评测数据，评测数据中包含至少50个问题和答案，后续通过评测任务对问答效果进行评测。

操作步骤

登录OpenSearch控制台。
选择目标地域，切换到OpenSearch-LLM智能问答版。
在实例列表单击目标实例右侧的管理，在左侧导航栏选择效果对比。
在评测数据集页签下，单击创建评测数据集，输入评测数据集名称，参照样例数据格式以Excel或者JSON文件上传评测数据集。
说明
为获取准确的评测效果，要求评测数据集至少包含50个问题。
下载：下载评测数据集。
删除：评测任务中评测数据集

下一步

评测任务管理

测试数据集

一、大学网站招生数据集

概述：原始文档库来源于中国人民大学招生网站，内容多关于招生政策、院系介绍等

来源：https://arxiv.org/abs/2406.05654

数据集：domainrag_xlsx_corpus.xlsx

QA集：basic_qa_anslen1.xlsx

二、天池基于保险条款的问答比赛数据集

概述：原始文档库内容来源于多种保险产品及其相应条款

来源：https://tianchi.aliyun.com/competition/entrance/532194/information

数据集：tianchi_doc_with_title.json

QA集：dev_qa_sample_50_for_llm.xlsx

三、crud新闻数据集

概述：原始文档库内容来源于中文新闻网站（2023.07之后的新闻）

来源：https://arxiv.org/abs/2401.17043

数据集（受控制台大小要求拆分为三份）：

crud_corpus_for_llm_1.json

crud_corpus_for_llm_2.json

crud_corpus_for_llm_3.json

QA集：crud_1doc_qa_sample100_for_llm.xlsx

上一篇：富文本功能下一篇：评测任务管理

该文章对您有帮助吗？