深度Deep版(内测中)

更新时间:
复制为 MD 格式

本文介绍深度搜索引擎的特点与评测结果

Deep搜索引擎目前处于内测阶段,如需使用请联系我们

产品简介

Deep搜索引擎是一款专为Agentic Search场景打造的解决方案。该引擎具备以下核心优势:

  • 复杂问题处理能力:针对复杂query进行深度理解与拆解,通过多路、多步检索获取解决复杂问题的完整信息,在FRAMES、BrowseComp等数据集上相比其它搜索引擎提升显著。

  • 更广泛的索引数据:索引覆盖中英文结果,在中英文数据集上均有优秀的性能。

  • 丰富的正文信息:检索结果包含简短的snippet(500字以内)以及保留更多原始信息的mainText(50000字以内),提供更丰富的原始数据,在复杂任务下表现更好。

效果

SimpleQA、FRMAES、BrowseComp等公开数据集上,评测Deep引擎及其他搜索引擎,结果如下:

SimpleQA

SimpleQA 是由 OpenAI 推出的事实性问答基准(benchmark),用于评估大语言模型(LLM)和检索增强生成(RAG)系统在短文本事实性问题上的回答准确性。

评估方法

  • Judge Model:qwen3.5-plus

  • Answer Model:qwen3.5-plus

  • 检索结果增强Context简化逻辑与ChineseSimpleQA类似(--search-engine 为扩充参数);

  • 随机采样1000条数据进行评测;

 python -m simple-evals.simple_evals --model qwen3.5-plus --eval simpleqa --examples 1000 --search-engine Deep

评估结果

搜索引擎

Score

incorrect

not_attempted

LLM Only (WebSearch)

0.467

0.511

0.022

IQS Deep (Snippet)

0.876

0.103

0.021

Google (Snippet, Serp)

0.818

0.124

0.058

Exa Auto(Snippet)

0.619

0.186

0.195

FRAMES

FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)是由 Google Research 推出的标准化评估框架,包含 824 道具有挑战性的多跳问题(multi-hop questions),每个问题需要检索并融合 2~15 篇维基百科文章的内容才能解答。与 SimpleQA 等简单事实性问答不同,FRAMES 聚焦于需要多次检索和信息整合的复杂任务,更贴近真实场景中的用户查询。

评估方法

  • Judge Model:qwen3.5-plus

  • Answer Model:qwen3.5-plus

  • 检索结果增强Context简化逻辑与ChineseSimpleQA类似(--search-engine 为扩充参数);

  • 全量824条数据评测

 python -m simple-evals.simple_evals --model qwen3.5-plus --eval frames --search-engine Deep

评估结果

搜索引擎

Score

incorrect

not_attempted

LLM Only (WebSearch)

0.071

0.544

0.385

IQS Deep (mainText)

0.627

0.340

0.033

Google (Snippet, Serp)

0.360

0.535

0.104

Exa Deep(mainText)

0.708

0.275

0.017

BrowseComp

BrowseComp 是由 OpenAI 推出的一个高难度网页浏览能力评估基准,用于测试 AI 智能体(Agent)通过浏览器进行深度信息检索和多步推理的能力,包含 1,266 道高难度题目,每道题都需要智能体进行多步浏览、导航和推理才能解答,覆盖复杂的信息检索场景,远超简单的单轮搜索。

评估方法

  • Judge Model:qwen3.5-plus

  • Answer Model:qwen3.5-plus

  • 使用简单的React Agent,限制10min推理时间 / 20LLM交互

  • 采样100条数据进行评测

 python -m simple-evals.simple_evals --model qwen3.5-plus --eval browsecomp --search-engine Deep

评估结果

搜索引擎

Score

incorrect

LLM Only (WebSearch)

0.04

0.96

IQS Deep (mainText)

0.26

0.74

Google (Snippet, Serp)

0.14

0.86

Exa Deep(mainText)

0.23

0.77

功能

对一些常用的高级检索参数进行了支持、以及Agent友好性适配。

时间范围检索

在支持指定范围TimeRange参数的同时,增加了对网页发布时间指定开始、结束日期的检索参数。

"advancedParams": {
  "startPublishedDate": "2024-12-01",
  "endPublishedDate": "2025-01-31"
}

返回条数

支持返回从1-50的范围;可根据实际场景以及检索结果的处理能力来选择,默认:10条;

"advancedParams": {
  "numResults": "10"
}

更长的正文

传统搜索引擎仅返回搜索页结果,包含与用户查询相关的正文摘要(Snippet);在Agentic Searh场景中,摘要包含的信息通常不足以得出结论,往往需要进行进一步的网页爬取。Deep引擎除返回网页摘要外,还将返回完整的网页原始文本信息,以便于Agent解决复杂问题时能够获取到足够的信息。

限制

  1. Deep引擎时延较长(10s左右),适用于研究报告、离线任务等对时延不敏感的场景,在实时对话等时延敏感场景中使用可能影响用户体验 ;

  2. 搜索结果中可能出现正文内容较少的情况(例如视频等多模态页面、需要用户登录的网页等),建议同时结合网页摘要与正文进行处理。

使用

详细的使用说明,请参考:IQS Unified Search API 中的engineType = Deep。

Release Notes

发布时间

功能描述

20260409

  • 深度引擎内测发布