数据检索节点

更新时间:
复制为 MD 格式

大模型应用需要访问实时数据和企业知识才能准确回答问题。LangStudio 提供多种数据检索节点,支持从知识库、互联网和外部 API 获取数据,为大模型提供所需的上下文信息。

知识库检索(Index Lookup)

知识库中检索与用户问题相关的文本内容,以便将其用作下游LLM节点的上下文。

image

输入(Input)

  • 知识库索引名称:选择在LangStudio上已注册可用的知识库,详情请参见知识库管理

  • 检索关键词:选择希望在知识库中检索的关键信息,需要引用上游节点的输出参数,格式为String。

  • Top K:知识库索引检索时,系统返回的与检索关键词最相关的前K项结果。

输出(Output)

检索输出变量result, 类型为List[Dict],其中DictKey包含以下字段:

Key

说明

content

检索到的文档分片内容。

score

文档分片与查询的相似度得分,得分越高相关性越强。

以下为输出示例,表示返回结果包含得分最高的top_k条记录:

[
  {
    "score": 0.8057173490524292,
    "content": "受疫情带来的不确定性影响,xx银行根据经济走势及中国或中国内地环境预判,主动\n加大了贷款和垫款、非信贷资产减值损失的计提力度,加大\n不良资产核销处置力度,提升拨备覆盖率,2020 年实现净利\n润289.28亿元,同比增长 2.6%,盈利能力逐步改善。\n(人民币百万元) 2020年 2019年 变动(%)\n经营成果与盈利\n营业收入 153,542 137,958 11.3\n减值损失前营业利润 107,327 95,816 12.0\n净利润 28,928 28,195 2.6\n成本收入比(1)(%) 29.11 29.61下降 0.50个\n百分点\n平均总资产收益率 (%) 0.69 0.77下降 0.08个\n百分点\n加权平均净资产收益率 (%) 9.58 11.30下降 1.72个\n百分点\n净息差(2)(%) 2.53 2.62下降 0.09个\n百分点\n注: (1) 成本收入比 =业务及管理费/营业收入。",
    "id": "49f04c4cb1d48cbad130647bd0d75f***1cf07c4aeb7a5d9a1f3bda950a6b86e",
    "metadata": {
      "page_label": "40",
      "file_name": "2021-02-04_中国xx保险集团股份有限公司_xx_中国xx_2020年__年度报告.pdf",
      "file_path": "oss://my-bucket-name/datasets/chatglm-fintech/2021-02-04__中国xx保险集团股份有限公司__601318__中国xx__2020年__年度报告.pdf",
      "file_type": "application/pdf",
      "file_size": 7982999,
      "creation_date": "2024-10-10",
      "last_modified_date": "2024-10-10"
    }
  },
  {
    "score": 0.7708036303520203,
    "content": "72亿元,同比增长 5.2%。\n2020年\n(人民币百万元)寿险及\n健康险业务财产保险\n业务 银行业务 信托业务 证券业务其他资产\n管理业务 科技业务其他业务\n及合并抵消 集团合并\n归属于母公司股东的净利润 95,018 16,083 16,766 2,476 2,959 5,737 7,936 (3,876) 143,099\n少数股东损益 1,054 76 12,162 3 143 974 1,567 281 16,260\n净利润 (A) 96,072 16,159 28,928 2,479 3,102 6,711 9,503 (3,595) 159,359\n剔除项目 :\n 短期投资波动(1)(B) 10,308 – – – – – – – 10,308\n 折现率变动影响 (C) (7,902) – – – – – – – (7,902)\n 管 理层认为不属于  \n日常营运收支而剔除的  \n一次性重大项目及其他 (D) – – – – – – 1,282 – 1,282\n营运利润 (E=A-B-C-D) 93,666 16,159 28,928 2,479 3,102 6,711 8,221 (3,595) 155,670\n归属于母公司股东的营运利润 92,672 16,",
    "id": "8066c16048bd722d030a85ee8b1***36d5f31624b28f1c0c15943855c5ae5c9f",
    "metadata": {
      "page_label": "19",
      "file_name": "2021-02-04_中国xx保险集团股份有限公司_xxx_中国xx__2020年__年度报告.pdf",
      "file_path": "oss://my-bucket-name/datasets/chatglm-fintech/2021-02-04__中国xx保险集团股份有限公司__601318__中国xx__2020年__年度报告.pdf",
      "file_type": "application/pdf",
      "file_size": 7982999,
      "creation_date": "2024-10-10",
      "last_modified_date": "2024-10-10"
    }
  }
]

使用案例

阿里云IQS-联网搜索(IQS-GenericSearch)

使用阿里云信息查询服务(IQS)进行联网搜索,对指定的查询语句进行实时检索,获取互联网上的最新信息,支持时间范围筛选。通过联网数据可以增强AI应用回答的准确性和时效性。

image

输入(Input)

  • 搜索关键词:选择希望进行联网搜索的关键信息。长度必须在2100个字符之间,若超过100个字符,将被截断至100个字符;若少于2个字符,则会引发错误。

  • 时间范围:选择搜索数据的时间范围,支持选择NoLimit、OneDay、OneWeek、OneMonthOneYear。

  • IQS连接:配置方式取决于运行时或部署服务时的实例RAM角色设置,推荐使用RAM角色鉴权方式(数据更安全)。

    • 使用RAM角色鉴权(推荐)

      • 适用场景:实例RAM角色选择自定义角色,且该角色已配置AliyunIQSFullAccess权限策略。

      • 配置方式:无需配置IQS连接,系统将自动通过RAM角色进行鉴权。

      • 安全性:在VPC环境下通过RAM鉴权,不经公网,数据更加安全。

    • 使用API Key鉴权(不推荐)

      • 适用场景:实例RAM角色选择PAI默认角色,或未配置有权限的自定义角色。

      • 配置方式:需要配置IQS连接。请参见服务连接配置-自定义连接,将键配置为api_key,值可通过信息查询服务-凭证管理获取。

      • 安全性:通过API Key经公网访问,数据安全性相对较低。

输出(Output)

  • output:联网搜索输出变量output, 类型为List[Dict],其中DictKey包含以下字段:

    Key

    说明

    title

    搜索结果的标题,概括内容主题。

    link

    搜索结果的 URL,可访问完整内容。

    summary

    搜索结果的摘要,简要介绍核心信息。

    content

    搜索结果的完整内容。

    markdown_text

    Markdown 格式的搜索内容,可能为空。

    score

    搜索结果的相关性评分,评分越高相关性越强。

    publish_time

    内容的发布时间。

    host_logo

    来源网站的标志图标 URL。

    hostname

    来源网站的主机名或域名。

    site_label

    来源网站的标签或分类。

  • scene_items:增强搜索结果的辅助信息。通常为空,仅在特定场景(如时间、天气、日历等)时返回补充信息,详情请参见场景化调用SceneItem概览

使用案例

基于LangStudio&阿里云信息查询服务搭建DeepSeek联网搜索应用流

SerpAPI-联网搜索(SerpAPI-GenericSearch)

使用SerpApi进行网络搜索,支持多个搜索引擎(如Bing、Google、Baidu、Yahoo以及自定义),可配置搜索位置和结果数量。

image

输入(Input)

  • SerpApi连接:选择在LangStudio上已创建的SerpApi连接,详情请参见创建SerpApi连接

  • 搜索关键词:选择希望进行网络搜索的关键信息,需要引用上游节点的输出参数,格式为String。

  • 搜索引擎:支持bing、google、baiduyahoo搜索,也支持自定义的输入。

  • 位置:搜索所在位置。如需使用,建议具体到城市,如Shanghai, China

  • 搜索结果数量:返回的查询结果数量。

输出(Output)

联网搜索输出变量output, 类型为List[Dict],其中DictKey包含以下字段:

Key

说明

title

搜索结果的标题,通常是网页或文档的标题,简要概括了内容的主题。

link

搜索结果的链接,即URL。用户可以通过这个链接访问完整的内容。

summary

搜索结果的摘要,通常是对内容的简要介绍或概括,帮助用户快速了解内容的核心信息。

使用案例

基于LangStudio&DeepSeekRAG及联网搜索聊天机器人解决方案

HTTP请求

通过 HTTP 请求工具,可以便捷地调用外部 API 接口,支持多种 HTTP 方法、认证方式和请求体格式,满足各类集成需求。

输入

  • 请求方法:HTTP 请求方法,支持GET、POST、PUT、PATCH、DELETE、HEAD、OPTIONS。

  • URL:请求的目标地址。

  • 请求头:自定义 HTTP 请求头。每行为一个header,填入对应的键值。

  • 请求参数:查询字符串参数。每行一个参数,填入对应的键值。

  • 鉴权:默认关闭,即不进行鉴权;开启后可选择标准认证方式(Bearer 或 Basic)。

    • Bearer:使用 Bearer Token 认证,填入时无需添加Bearer前缀

    • Basic:使用基础认证,输入用户名和密码,系统将自动转换为 Base64 编码的凭证

    • 如需自定义认证方式,请手动配置请求头

  • 请求体:支持以下请求体格式。

    • none:无请求体

    • JSON:发送JSON格式数据

    • form-data:发送multipart/form-data格式数据,支持文件上传

    • x-www-form-urlencoded:发送URL编码的表单数据

    • raw-text:发送纯文本数据

    • binary:发送二进制文件数据,支持文件上传

  • SSL验证:默认开启,选择是否验证服务器SSL证书,生产环境建议保持开启。

  • 超时时间:请求超时时间,范围1-600秒,默认10秒。

  • 重试配置:默认关闭,选择是否在请求失败时自动重试。

    • 最大重试次数:最多重试次数,范围0-10

    • 重试间隔:两次重试之间的间隔时间,范围100-10000毫秒

输出

  • body:响应文本内容。当响应为文件时,此字段为空字符串。

  • status_code:HTTP响应状态码,如200、404、500等。

  • headers:HTTP响应头,以键值对形式返回。

  • file:文件对象(当响应为文件时)。