文档

数据配置

更新时间:

OpenSearch-LLM智能问答版支持导入结构化数据、非结构化数据、网页、表格等多种形式的数据,本文将介绍如何在控制台进行数据配置。

数据结构介绍

主表数据结构暂时为固定模板,有score、id、title、category、url、content、timestamp 7个字段。

字段

类型

描述

score

FLOAT

文档的分数

id

LITERAL

文档ID,唯一不重复

title

TEXT

文档标题

category

LITERAL_ARRAY

文档类目

url

LITERAL

文档url链接

content

TEXT

文档内容

timestamp

INT

时间戳,代表文档时间新鲜度

说明
  • 上传结构化数据时,score、title、category、url、timestamp是非必填字段,可以根据需求选填。

  • score、timestamp字段与文档召回排序有关,具体设置请参考:文档召回参数

  • category字段支持多值,每个item用英文逗号隔开,具体使用说明请参考:参数说明

准备工作

  1. 登录OpenSearch控制台

  2. 选择目标地域,切换到OpenSearch-LLM智能问答版

  3. 在实例列表单击目标实例右侧的管理,在左侧导航栏选择配置中心->数据配置,可以根据业务情况选择数据导入方式。

上传文件导入

单击文件导入进入文件导入页面。

文件导入.png

  • 上传非结构化数据,支持格式为doc、docx、pdf、html、txt、ppt、pptx格式的文件,单个文件大小不能超过128MB,支持一次性上传多个文件。

    说明

    如果word格式文件内的图片比较多,建议转为pdf格式再上传,速度会比较快。

  • 上传结构化数据,支持格式为 JSON、EXCEL,编码为 UTF-8 的文件,单个文件大小不能超过128MB,支持一次性上传多个文件。数据格式请下载样例数据进行参考。

    说明
    • 表名配置规则是英文字母、数据或者下划线,表名不要超过20个字符。

    • 字段名称,命名规则是英文字母或下划线,不能以下划线开头,每个字段名不要超过30个字符。

    • 每个excel最多支持30个字段的数据写入和查询,超出的部分会被忽略。

网页链接导入

单击网页链接导入按钮,选择网页导入并输入网址链接,每个网址占一行,然后点击导入按钮,即可完成网页导入。

网页链接.png

网站导入

  1. 单击网页链接导入按钮,选择网站导入,单击新建任务,输入网站链接以及category类目名称,可根据需求设置URL过滤、Xpath选择器及CSS选择器。

    新建任务.png

    说明
    • 网站链接:需要传入的网站链接。

    • category:查传入链接的类目名称。

    • URL过滤:默认的URL过滤规则是以URL开头的网站地址。比如,网站URL为http://www.abc.com/,则默认正则表达式为:http://www\.abc\.com/.*。

    • Xpath选择器:比如要精确获取div标签下的内容,该项设为://div。

    • CSS选择器:比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div>,该项设为:div.content。

    • 暂不支持以.png/.jpg/.jpeg结尾的URL。

  2. 运行完成后可查看网页爬取条数,单击确定按钮即可完成网站导入。

    导入完成.png

表格导入

具体请参见:表格问答

数据查询

文档上传成功后可以查看文档总数,也可以通过问答测试页面进行问答效果测试。支持通过主键查看已经推送成功的数据,并支持通过主键删除对应的数据。

  1. 查看数据

    在id后的输入框中输入已经推送成功数据的主键ID,单击搜索即可查看推送的数据详情。

    image.png

  2. 删除数据

    在id后的输入框中输入想要删除数据的主键ID,单击删除->确定即可删除该文档。

    image.png

  3. 编辑数据

    LLM智能问答版支持在控制台直接编辑数据,可在id后的输入框里面填入需修改的数据主键ID,单击编辑按钮, 可以对可编辑字段进行修改。

    image.png

注意事项

  • 主键id是唯一键,如有重复后者数据会覆盖前者。

  • 结构化数据单次上传最大为2M。

  • 非结构化数据单个文件大小最大不能超过128M。

  • 数据上传成功后可正常查询时间取决于当时整体的数据更新量 。