OpenSearch-LLM智能问答版支持导入结构化数据、非结构化数据、网页、表格等多种形式的数据,本文将介绍如何在控制台进行数据配置。
数据结构介绍
主表数据结构暂时为固定模板,有score、id、title、category、url、content、timestamp 7个字段。
字段 | 类型 | 描述 |
score | FLOAT | 文档的分数 |
id | LITERAL | 文档ID,唯一不重复 |
title | TEXT | 文档标题 |
category | LITERAL_ARRAY | 文档类目 |
url | LITERAL | 文档url链接 |
content | TEXT | 文档内容 |
timestamp | INT | 时间戳,代表文档时间新鲜度 |
准备工作
选择目标地域,切换到OpenSearch-LLM智能问答版。
在实例列表单击目标实例右侧的管理,在左侧导航栏选择配置中心->数据配置,可以根据业务情况选择数据导入方式。
上传文件导入
单击文件导入进入文件导入页面。
上传非结构化数据,支持格式为doc、docx、pdf、html、txt、ppt、pptx格式的文件,单个文件大小不能超过128MB,支持一次性上传多个文件。
说明如果word格式文件内的图片比较多,建议转为pdf格式再上传,速度会比较快。
上传结构化数据,支持格式为 JSON、EXCEL,编码为 UTF-8 的文件,单个文件大小不能超过128MB,支持一次性上传多个文件。数据格式请下载样例数据进行参考。
说明表名配置规则是英文字母、数据或者下划线,表名不要超过20个字符。
字段名称,命名规则是英文字母或下划线,不能以下划线开头,每个字段名不要超过30个字符。
每个excel最多支持30个字段的数据写入和查询,超出的部分会被忽略。
网页链接导入
单击网页链接导入按钮,选择网页导入并输入网址链接,每个网址占一行,然后点击导入按钮,即可完成网页导入。
网站导入
单击网页链接导入按钮,选择网站导入,单击新建任务,输入网站链接以及category类目名称,可根据需求设置URL过滤、Xpath选择器及CSS选择器。
说明网站链接:需要传入的网站链接。
category:查传入链接的类目名称。
URL过滤:默认的URL过滤规则是以URL开头的网站地址。比如,网站URL为http://www.abc.com/,则默认正则表达式为:http://www\.abc\.com/.*。
Xpath选择器:比如要精确获取div标签下的内容,该项设为://div。
CSS选择器:比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div>,该项设为:div.content。
暂不支持以.png/.jpg/.jpeg结尾的URL。
运行完成后可查看网页爬取条数,单击确定按钮即可完成网站导入。
表格导入
具体请参见:表格问答。
数据查询
文档上传成功后可以查看文档总数,也可以通过问答测试页面进行问答效果测试。支持通过主键查看已经推送成功的数据,并支持通过主键删除对应的数据。
查看数据
在id后的输入框中输入已经推送成功数据的主键ID,单击搜索即可查看推送的数据详情。
删除数据
在id后的输入框中输入想要删除数据的主键ID,单击删除->确定即可删除该文档。
编辑数据
LLM智能问答版支持在控制台直接编辑数据,可在id后的输入框里面填入需修改的数据主键ID,单击编辑按钮, 可以对可编辑字段进行修改。
注意事项
主键id是唯一键,如有重复后者数据会覆盖前者。
结构化数据单次上传最大为2M。
非结构化数据单个文件大小最大不能超过128M。
数据上传成功后可正常查询时间取决于当时整体的数据更新量 。