表格问答

本文介绍如何实现表格问答。

功能简介

伴随着问答内容丰富度的提高,问答文档内容不仅仅局限于常规的文本图片相关内容,对结构化数据的精准问答的需求也在不断增多。为解决在复杂的内容结构下,准确的回答客户问题,提升问答体验,OpenSearch-LLM智能问答版推出了表格问答功能,通过配置简单的表结构,传入结构化数据就可以是实现表格类数据的精准问答。同时还支持数据源的方式(MaxCompute)来同步结构化数据方便快捷、简单易用,极大地节约了开发成本。

通过控制台手动创建辅表

一、手动创建辅表

  1. 选择数据配置->变更配置,保持默认数据处理配置,单击下一步进入数据结构配置。单击添加表并选择手动创建。

    手动创建.png

  2. 如果相关表字段需进行文本问答,可打开文本问答按钮,给需要进行文本问答的字段指定字段标签。

    image.png

    说明
    • 表名为英文字母、数据或者下划线,不要超过20个字符。

    • 字段名称:必须以字母开头,由字母、数字和下划线组成,不能超过30个字符。

    • 字段解释:字段解释和问答效果强相关,建议每个字段都要填写,否则会对问答效果产生影响。可以根据问答效果随时进行调整,每个字段的字段解释不能超过30个字符。

    • 请保证主键值唯一,主键ID只支持INT和TEXT两种类型。

    • 字段类型:请根据待上传表格数据进行配置,类型不一致会导致表格上传失败。配置为内容的字段,字段类型应设置为TEXT。

    • 字段标签:若不开启文本问答功能则无需填写,若开启文本问答功能则需要配置内容主键这两个字段标签。配置为内容的字段会同步到main表中,目前只支持将一条字段的标签设置为内容

    • 文本问答:开启后,在问答测试时会先针对自定义的辅表中进行表格问答,如果没有搜索到答案,则会针对设置为内容的字段进行文本问答,增加回答率。

  3. 点击完成等待版本构建完毕后由控制台推送数据,也可以点击添加数据源,配置数据源同步数据。

二、通过控制台上传数据

通过文件导入方式上传测试数据,上传前请先参考样例数据

文件导入.png

说明

您还可以通过API上传辅表,导入您的表格数据来进行问答,具体请参见PushKnowledgeDocuments-文档推送

三、(可选)添加数据源同步附表数据

说明

如果您有MaxCompute数据源,可以通过添加数据源把数据同步至辅表中。

  1. 选择MaxCompute数据源,点击新建数据库,按要求填写project名称、accessKey和accessKeySecret,然后点击连接。

    image.png

    image.png

    说明
    • project名称:MaxCompute的项目名。

    • accessKey:MaxCompute项目所在账号的accessKey。

    • accessKeySecret:MaxCompute项目所在账号的accessKeySecret。

    • 要查看账号的AccessKey信息请参见查看RAM用户的AccessKey信息

  2. 选择需要参与问答的数据表然后单击确认。

    image.png

  3. 单击MaxCompute源字段下拉菜单选择对应字段与OpenSearch表字段相映射。映射完毕后单击确认

    image.png

  4. 填入分区条件(不填默认拉取所有分区)点击完成等待版本构建完毕。

    image.png

通过数据源创建辅表

说明

如有表格类的结构化数据需要做问答的话,可以通过配置数据源和添加辅表的方式来实现表格问答。

  1. 选择数据配置->变更配置,保持默认数据处理配置,单击下一步进入数据结构配置。单击添加表并选择通过数据源创建。

  2. 选择MaxCompute数据源,点击新建数据库,按要求填写project名称、accessKey和accessKeySecret,然后单击连接。

    image.png

  3. 选择需要参与问答的数据表然后单击确认。

    image.png

  4. 如果相关表字段需进行文本问答,可打开文本问答按钮,给需要进行文本问答的字段指定字段标签。

    image.png

    说明
    • 表名为英文字母、数据或者下划线,不要超过20个字符。

    • 字段名称:必须以字母开头,由字母、数字和下划线组成,不能超过30个字符。

    • 字段解释:字段解释和问答效果强相关,建议每个字段都要填写,否则会对问答效果产生影响。可以根据问答效果随时进行调整,每个字段的字段解释不能超过30个字符。

    • 请保证主键值唯一,主键ID只支持INT和TEXT两种类型。

    • 字段类型:请根据待上传表格数据进行配置,类型不一致会导致表格上传失败。配置为内容的字段,字段类型应设置为TEXT。

    • 字段标签:若不开启文本问答功能则无需填写,若开启文本问答功能则需要配置内容主键这两个字段标签。配置为内容的字段会同步到main表中,目前只支持将一条字段的标签设置为内容。其它标签设置请参见数据配置

    • 文本问答:开启后,在问答测试时会先针对自定义的辅表中进行表格问答,如果没有搜索到答案,则会针对设置为内容的字段进行文本问答,增加回答率。

  5. 填入分区条件(不填分区条件默认拉取全部分区数据),单击完成等待构建完毕。

效果测试

数据上传成功后可在问答测试页面进行测试,文档总数可在数据查询下查看。

image.png

说明

API查询数据可参考:问答文档查询

相关限制

  • 辅表最多只能添加5张。

  • 每个辅表最多支持30个字段的数据写入和查询。