富文本功能

本文介绍OpenSearch-LLM智能问答版富文本功能配置与效果。

目前OpenSearch线上的RAG流程中,文档切片时会提取出所有的富文本元素(图片,表格,代码),并以富文本标签的形式和正文切片同时保存。开启富文本生成功能后,大模型在回答时能够包含召回文档中的富文本内容。

开启富文本功能

问答测试>其他参数中的rich_text_strategy为富文本功能的参数,在应用操作API中,配置该参数则开启该功能,置空则不开。

image

参数说明:

SearchKnowledge-文本问答接口新增参数:

options.chat.rich_text_strategy

String

富文本LLM输出后处理方式(如果不存在这个配置或者为空则不开富文本,默认行为):

  • inside_response: 回答中的tag直接还原到原文里,Markdown格式(注意表格直接以HTML形式插入markdown)。

  • extend_response: 回答中存在富文本tag,每个tag实际内容单独在rich_text_ref返回:图片内容url,表格内容HTML格式,代码文本格式。

inside_response:

回答将以Markdown格式呈现,可能包含富文本内容,如表格、图片及代码。

image

extend_response:

回答仍然为纯文本格式,但富文本标签可被点击。点击后将会弹出窗口展示富文本内容(不进行渲染,而是展示原始内容)。

image

image

请求示例

{
	"question": {
		"text": "如何配置敏感数据识别规则?",
		"type": "TEXT"
	},
	"options": {
		"chat": {
			"rich_text_strategy": "inside_response"
		}
	}
}

extend_response返回示例

需要对data.rich_text_ref中的富文本标签进行自主解析,并开发相应逻辑以替换data.answer中的富文本标签。

{
  "request_id": "0bb16ed4-6eec-4ae4-b1dd-0650289b45b3",
  "status": "OK",
  "latency": 11421.663139,
  "result": {
    "data": [
      {
        "answer": "根据已知信息,配置敏感数据识别规则的步骤如下:\n\n1. 进入数据识别规则页面:\n   - 登录DataWorks控制台,进入数据开发页面。\n   - 选择数据治理 > 数据保护伞,进入数据保护伞页面。\n   - 在左侧导航栏选择规则配置 > 敏感数据识别,进入数据识别规则页面。\n\n2. 配置敏感字段所属分类:\n   - 如果是新用户,可以在左侧区域搜索或添加分类。\n   - 如果是老用户,可以按需创建数据分类。\n   - 注意分类名称必须唯一,仅支持中英文、数字,长度限制1~30个字符。\n\n3. 配置敏感数据识别规则:\n   - 在数据识别规则页面,点击\"+敏感字段类型\"新增敏感字段类型。\n   - 配置敏感字段类型的基本信息,包括类型、所属分类、所属分级和描述信息。[^表-16134^]\n   - 点击\"下一步\",进入规则配置页面。\n   - 在规则配置页签,配置敏感字段识别规则及规则的命中条件,并测试规则准确性。[^图-19933^]\n   - 发布数据识别规则,点击\"发布使用\"。\n\n4. 授权并启动敏感数据识别任务:\n   - 为敏感数据识别任务授权,点击\"开启任务\"并按照界面指引授权。\n   - 配置敏感数据识别任务,包括任务类型、扫描方式及范围。[^图-41464^]\n   - 点击\"开启\",启动扫描任务。\n\n需要注意的是:\n- 若暂时无需使用规则,可以点击\"保存草稿\"。\n- 若某列数据命中多个敏感字段类型的识别规则,规则的生效顺序为:字段名称识别 > 数据内容识别 > 字段注释识别。\n- 若需要实时触发新任务,需要手动启动任务。\n- 识别规则修改后,新规则将在下一次自动任务中启用。\n\n此外,还可以进行以下管理操作:\n- 复制规则\n- 编辑规则\n- 删除规则\n- 批量发布规则\n- 批量下架规则\n\n这些操作可以帮助用户更灵活地管理敏感数据识别规则。",
        "type": "TEXT",
        "reference": [
          {
            "tokenNum": 1814,
            "id": "8d89d16d8e73658ee12ea0b9e70a5ee2",
            "title": "如何配置敏感数据识别规则并执行敏感数据识别任务_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心",
            "url": "https://xxx.com"
          }
        ],
        "rich_text_ref": [
          {
            "id": "表-16134",
            "content": "<table><tbody>\n <tr>\n  <td><b>参数</b></td>\n  <td><b>描述</b></td>\n </tr>\n <tr>\n  <td><b data-tag=\"uicontrol\" id=\"uicontrol-a5j-bxo-9a3\" class=\"uicontrol\">敏感字段类型</b></td>\n  <td>自定义敏感字段类型的名称,例如:姓名、身份证号、手机号等。名称必须唯一。</td>\n </tr>\n <tr>\n  <td><b data-tag=\"uicontrol\" id=\"uicontrol-80t-1ey-cbs\" class=\"uicontrol\">所属分类</b></td>\n  <td>选择敏感字段类型所属的分类。若现有分类不满足需求,请进入<b data-tag=\"uicontrol\" id=\"uicontrol-5sa-eit-jzt\" class=\"uicontrol\">数据分类分级</b>页面进行设置,详情请参见<a href=\"https://xxx.dataworks/user-guide/mange-data-sensitivity-levels#concept-ohj-1s3-r2b\" id=\"21566a9cceiv9\" title=\"\" class=\"xref\">配置敏感数据分类分级</a>。</td>\n </tr>\n <tr>\n  <td><b data-tag=\"uicontrol\" id=\"uicontrol-o8f-oek-vx3\" class=\"uicontrol\">所属分级</b></td>\n  <td>选择敏感字段类型所属的级别,数字越大,敏感级别越高。若现有分级不满足需求,请进入<b data-tag=\"uicontrol\" id=\"3a552504f1aui\" class=\"uicontrol\">数据分类分级</b>页面进行设置,详情请参见<a href=\"https://help.xxx.dataworks/user-guide/mange-data-sensitivity-levels#concept-ohj-1s3-r2b\" id=\"39588a781b9hn\" title=\"\" class=\"xref\">配置敏感数据分类分级</a>。</td>\n </tr>\n</tbody></table>"
          },
          {
            "id": "图-19933",
            "content": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/9017816461/p339261.png"
          },
          {
            "id": "图-41464",
            "content": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/5947660271/p819013.png"
          }
        ]
      },
      {
        "answer": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/5947660271/p339229.png",
        "type": "IMAGE",
        "reference": [
          {
            "tokenNum": 179,
            "id": "8d89d16d8e73658ee12ea0b9e70a5ee2",
            "title": "如何配置敏感数据识别规则并执行敏感数据识别任务_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心",
            "url": "https://xxx.com"
          }
        ]
      }
    ]
  }
}

inside_response返回示例

直接解析data.answer字段为markdown格式即可,无需考虑rich_text_ref字段。

{
  "request_id": "b1f59cc0-daad-45e2-bc41-f01e1c2ff5d7",
  "status": "OK",
  "latency": 9828.389664,
  "result": {
    "data": [
      {
        "answer": "根据已知信息,配置敏感数据识别规则的步骤如下:\n\n1. 进入数据识别规则页面:\n   - 登录DataWorks控制台,进入数据开发页面。\n   - 选择对应工作空间,进入数据开发。\n   - 点击左侧导航栏的\"全部产品 > 数据治理 > 数据保护伞\",进入数据保护伞。\n   - 在左侧导航栏选择\"规则配置 > 敏感数据识别\",进入数据识别规则页面。\n\n2. 配置敏感字段所属分类:\n   - 如果是新用户,可以在左侧区域搜索或添加分类。\n   - 如果是老用户,可以按需创建数据分类。\n   - 注意分类名称必须唯一,仅支持中英文、数字,长度限制1~30个字符。\n\n3. 配置敏感数据识别规则:\n   - 在数据识别规则页面,点击\"+敏感字段类型\"新增敏感字段类型。\n   - 配置敏感字段类型的基本信息:\n     - 设置敏感字段类型\n     - 选择所属分类\n     - 选择所属分级\n     - 输入描述信息\n   - 点击\"下一步\"进入规则配置页面。\n   - 在规则配置页签,配置敏感字段识别规则及规则的命中条件,并测试规则准确性。![](https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/9017816461/p339261.png)\n   - 发布数据识别规则:点击\"发布使用\"即可发布当前数据识别规则。\n\n4. 授权并启动敏感数据识别任务:\n   - 为敏感数据识别任务授权:点击敏感数据识别页面左上方的\"开启任务\",按照界面指引授权。\n   - 启动敏感数据识别任务:\n     - 配置任务类型、扫描方式及范围。![](https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/5947660271/p819013.png)\n     - 点击\"开启\"启动扫描任务。\n\n5. 管理数据识别规则:\n   - 可以复制、编辑、删除规则。\n   - 支持批量发布和批量下架规则。\n\n需要注意的是,规则发布后才可使用该规则在识别任务中识别相应敏感数据。如果规则较多,可以通过批量功能进行发布或下架操作。",
        "type": "TEXT_MARKDOWN",
        "reference": [
          {
            "tokenNum": 1814,
            "id": "8d89d16d8e73658ee12ea0b9e70a5ee2",
            "title": "如何配置敏感数据识别规则并执行敏感数据识别任务_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心",
            "url": "https://xxx.com"
          }
        ],
        "rich_text_ref": [
          {
            "id": "图-3873",
            "content": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/9017816461/p339261.png"
          },
          {
            "id": "图-19511",
            "content": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/5947660271/p819013.png"
          }
        ]
      },
      {
        "answer": "https://help-static-aliyun-doc.aliyuncs.com/assets/img/zh-CN/5947660271/p339229.png",
        "type": "IMAGE",
        "reference": [
          {
            "tokenNum": 179,
            "id": "8d89d16d8e73658ee12ea0b9e70a5ee2",
            "title": "如何配置敏感数据识别规则并执行敏感数据识别任务_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心",
            "url": "https://xxx.com"
          }
        ]
      }
    ]
  }
}

注意

返回的data列表中,"type": "IMAGE"的项为召回阶段的部分图片结果,这里的图片与富文本功能无关,无论是否开启富文本功能,均可获取这些图片。富文本功能输出的图片相关性比召回阶段的图片更强。