轻量版(LiteAdvanced)搜索引擎

更新时间:
复制为 MD 格式

本文介绍轻量版搜索引擎的特点和评测结果。

产品简介

LiteAdvanced搜索引擎是一款专为 Agent WebSearch 场景打造的高性能、低成本解决方案。该引擎按需构建高质量的全文网页索引,具备以下核心优势:

  • 低时延:提供平均时延500ms以内的低时延响应,提升Agent多轮检索的用户体验。

  • 优秀的语义检索能力:提供了区别与传统关键字搜索引擎的精准语义检索能力,在ChineseSimpleQA数据集上取得了SOTA的性能。

  • 高级检索能力:提供了更细颗粒的高级检索条件,包括日期、站点等检索条件。

  • 低成本:更低的使用成本。

时延

截屏2025-08-10 下午2

LiteAdvanced引擎与其他几个大家常见的引擎进行对比,LiteAdvanced引擎的平均RT小于500ms,P95小于600ms ,在通用引擎中具备较强的优势。

说明
  1. ExaGoogleSerp的数据来源于:fastest-search-api

  2. GoogleSerp使用的是海外节点的测试结果,国内测试时延还会有一定增加。

  3. LiteAdvanced、Generic引擎会包含正文(main_text)内容数据;可以进一步减少网页ReadPage的时延。

效果

在私有数据集上使用搜索质量大模型评估方法,在overall_score指标上相对原引擎取得了13%的提升。

在公开数据集上,对ChineseSimpleQASimpleQA两个数据集做了评测。

ChineseSimpleQA

评估方法

  • Judge Model:qwen-max

  • Answer Model:deepseek-v3

  • 检索结果增强Context简化逻辑:

    def wrap_xml_context(search_results):
      """
          Wrap search results into XML format for context.
        """
      page_items = search_results.get("pageItems", []) if search_results else []
    
      if not page_items:
        return "<no_results>No relevant information found.</no_results>"
    
      xml_contexts = [
        f"<source>\n    <url>{item['link']}</url>\n    <passage>{item['snippet']}</passage>\n</source>"
        for item in page_items[:10]
      ]
        
      return "\n".join(xml_contexts)
    
    answer_prompt_template = """
        请根据提供的上下文回答以下问题。
        Question: {question}
        <context>
            {context}
        </context>
    """
    
    answer_prompt = answer_prompt_template.format(question = question, context = context)
    messages = [
      {"role": "system", "content": "你是一个智能助手。您使用 XML 格式的上下文来研究人们的问题。"},
      {"role": "user", "content": answer_prompt}
    ]

评估结果

搜索引擎

Overall(f-score)

中华文化

人文与社会科学

工程、技术与应用科学

生活、艺术与文化

社会

自然与自然科学

LLM Only (WebSearch)

73.44

71.31

79.09

74.34

66.78

72.97

75.31

LiteAdvanced (Snippet)

92.51

93.25

92.96

90.01

93.23

91.62

93.71

Google (Snippet, Serp)

90.37

92.20

91.09

88.45

89.95

92.14

89.10

Bing(Snippet, Serp)

89.87

92.33

91.60

86.42

89.32

91.64

88.54

引擎1 (Summary)

82.23

90.79

83.53

80.39

81.49

79.57

79.95

引擎2 (Summary)

80.27

91.10

80.91

79.42

79.09

76.25

77.93

引擎3 (Summary)

81.31

90.17

85.17

77.25

80.99

77.96

78.08

说明
  1. Snippet使用的是网页摘要,不涉及到模型总结。对应Summary字段使用各搜索引擎返回摘要(一般长度会更长, 400-600字),LiteAdvancedSnippet做了长度优化(400~500字),更适合Agent场景使用。

  2. 引擎1、2、3为业界常用的通用搜索引擎。

SimpleQA

针对 Agent 场景的 WebSearch 与面向人的传统搜索引擎相比,可以无缝接入多语言、全球化的高质量内容。因此,做好面向 Agent 的 WebSearch 必须构建多语言、全球化的搜索能力。为此我们补充了 SimpleQA 测试。目前国内搜索引擎在多语言支持方面普遍较弱,主要侧重于国内站点的索引。我们将持续加强并构建多语言、全球化的高质量索引,目前已有一些初步进展。

评估方法

  • Judge Model:qwen-max

  • Answer Model:deepseek-v3

  • 检索结果增强Context简化逻辑与ChineseSimpleQA类似(--search-engine 为扩充参数);

  • 我们选取前1000个问题进行测试;

 python -m simple-evals.simple_evals --model deepseek-v3 --eval simpleqa --examples 1000 --search-engine liteAdvanced

评估结果

搜索引擎

Score

incorrect

not_attempted

score:std

LLM Only (WebSearch)

0.248

0.69

0.062

0.43

LiteAdvanced (Snippet)

0.592

0.166

0.242

0.49

Google (Snippet, Serp)

0.824

0.078

0.098

0.38

Bing(Snippet, Serp)

0.705

0.116

0.179

0.456

引擎1 (Summary)

0.019

0.05

0.931

0.13

引擎2 (Summary)

0.043

0.05

0.894

0.20

功能

对一些常用的高级检索参数进行了支持、以及Agent友好性适配。

时间范围检索

在支持指定范围TimeRange参数的同时,增加了对网页发布时间指定开始、结束日期的检索参数。

"advancedParams": {
  "startPublishedDate": "2024-12-01",
  "endPublishedDate": "2025-01-31"
}

站点检索

支持指定站点范围(includeSites)、排除站点范围检索(excludeSites),站点可以支持一级(sina.com.cn)、二级域名(finance.sina.com.cn),最多支持100个站点。

"advancedParams": {
  "excludeSites": "aliyun.com,sina.cn"
}

返回条数

支持返回从1-50的范围;可根据实际场景以及检索结果的处理能力来选择,默认:10条;

"advancedParams": {
  "numResults": "10"
}

语义化检索

在之前的版本中,我们建议您使用大模型改写查询条件为几个关键词,新的引擎支持语义化检索能力,您可以改写为一小段连续文本(尽可能30个字符以内)进行检索;能够满足类似如下Query:

  • 两会报道中关于浙江的事情

  • 关于蔚来汽车的正面新闻

更长的摘要

传统搜索引擎的Snippet(摘要)主要用于列表页提供给用户做初步判断,具体信息需要用户点击到详情页进行查看,所以Snippet都比较短,一般都在100字符左右;但是在Agent的使用场景中,需要更丰富的信息,期望在一次检索中尽可能的返回必要的信息,我们直接扩充了Snippet的召回,将长度扩大到500字左右,提高了有效信息量。避免在snippet(100字)与main_text(3000字)中进行选择,或者做二次网页爬取。

限制

  1. 对于长尾的查询、时效性高(分钟级别)查询,我们的效果弱于传统大规模搜索引擎,但是会好于其他自建的搜索引擎。

使用

详细的使用说明,请参考:IQS UnifiedSearch LiteAdvanced引擎 中的engineType = LiteAdvanced。

Release Notes

发布时间

功能描述

20251203

  • 新增站点权威分:websiteAuthorityScore

  • 新增股票价格、平台热点资讯内容

  • 新增召回数量不足时,使用多引擎补充结果

20250919

  • includeSites/excludeSites 站点数量增加到100

20250908

  • 增加天气、股票资讯、汇率、新闻索引数据

20250807

  • 轻量版引擎发布