本文介绍深度搜索引擎的特点与评测结果
Deep搜索引擎目前处于内测阶段,如需使用请联系我们
产品简介
Deep搜索引擎是一款专为Agentic Search场景打造的解决方案。该引擎具备以下核心优势:
复杂问题处理能力:针对复杂query进行深度理解与拆解,通过多路、多步检索获取解决复杂问题的完整信息,在FRAMES、BrowseComp等数据集上相比其它搜索引擎提升显著。
更广泛的索引数据:索引覆盖中英文结果,在中英文数据集上均有优秀的性能。
丰富的正文信息:检索结果包含简短的snippet(500字以内)以及保留更多原始信息的mainText(50000字以内),提供更丰富的原始数据,在复杂任务下表现更好。
效果
在SimpleQA、FRMAES、BrowseComp等公开数据集上,评测Deep引擎及其他搜索引擎,结果如下:
SimpleQA
SimpleQA 是由 OpenAI 推出的事实性问答基准(benchmark),用于评估大语言模型(LLM)和检索增强生成(RAG)系统在短文本事实性问题上的回答准确性。
评估方法
Judge Model:qwen3.5-plus
Answer Model:qwen3.5-plus
检索结果增强Context简化逻辑与ChineseSimpleQA类似(--search-engine 为扩充参数);
随机采样1000条数据进行评测;
python -m simple-evals.simple_evals --model qwen3.5-plus --eval simpleqa --examples 1000 --search-engine Deep评估结果
搜索引擎 | Score | incorrect | not_attempted |
LLM Only (无WebSearch) | 0.467 | 0.511 | 0.022 |
IQS Deep (Snippet) | 0.876 | 0.103 | 0.021 |
Google (Snippet, Serp) | 0.818 | 0.124 | 0.058 |
Exa Auto(Snippet) | 0.619 | 0.186 | 0.195 |
FRAMES
FRAMES(Factuality, Retrieval, And reasoning MEasurement Set)是由 Google Research 推出的标准化评估框架,包含 824 道具有挑战性的多跳问题(multi-hop questions),每个问题需要检索并融合 2~15 篇维基百科文章的内容才能解答。与 SimpleQA 等简单事实性问答不同,FRAMES 聚焦于需要多次检索和信息整合的复杂任务,更贴近真实场景中的用户查询。
评估方法
Judge Model:qwen3.5-plus
Answer Model:qwen3.5-plus
检索结果增强Context简化逻辑与ChineseSimpleQA类似(--search-engine 为扩充参数);
全量824条数据评测
python -m simple-evals.simple_evals --model qwen3.5-plus --eval frames --search-engine Deep评估结果
搜索引擎 | Score | incorrect | not_attempted |
LLM Only (无WebSearch) | 0.071 | 0.544 | 0.385 |
IQS Deep (mainText) | 0.627 | 0.340 | 0.033 |
Google (Snippet, Serp) | 0.360 | 0.535 | 0.104 |
Exa Deep(mainText) | 0.708 | 0.275 | 0.017 |
BrowseComp
BrowseComp 是由 OpenAI 推出的一个高难度网页浏览能力评估基准,用于测试 AI 智能体(Agent)通过浏览器进行深度信息检索和多步推理的能力,包含 1,266 道高难度题目,每道题都需要智能体进行多步浏览、导航和推理才能解答,覆盖复杂的信息检索场景,远超简单的单轮搜索。
评估方法
Judge Model:qwen3.5-plus
Answer Model:qwen3.5-plus
使用简单的React Agent,限制10min推理时间 / 20轮LLM交互
采样100条数据进行评测
python -m simple-evals.simple_evals --model qwen3.5-plus --eval browsecomp --search-engine Deep评估结果
搜索引擎 | Score | incorrect |
LLM Only (无WebSearch) | 0.04 | 0.96 |
IQS Deep (mainText) | 0.26 | 0.74 |
Google (Snippet, Serp) | 0.14 | 0.86 |
Exa Deep(mainText) | 0.23 | 0.77 |
功能
对一些常用的高级检索参数进行了支持、以及Agent友好性适配。
时间范围检索
在支持指定范围TimeRange参数的同时,增加了对网页发布时间指定开始、结束日期的检索参数。
"advancedParams": {
"startPublishedDate": "2024-12-01",
"endPublishedDate": "2025-01-31"
}返回条数
支持返回从1-50的范围;可根据实际场景以及检索结果的处理能力来选择,默认:10条;
"advancedParams": {
"numResults": "10"
}更长的正文
传统搜索引擎仅返回搜索页结果,包含与用户查询相关的正文摘要(Snippet);在Agentic Searh场景中,摘要包含的信息通常不足以得出结论,往往需要进行进一步的网页爬取。Deep引擎除返回网页摘要外,还将返回完整的网页原始文本信息,以便于Agent解决复杂问题时能够获取到足够的信息。
限制
Deep引擎时延较长(10s左右),适用于研究报告、离线任务等对时延不敏感的场景,在实时对话等时延敏感场景中使用可能影响用户体验 ;
搜索结果中可能出现正文内容较少的情况(例如视频等多模态页面、需要用户登录的网页等),建议同时结合网页摘要与正文进行处理。
使用
详细的使用说明,请参考:IQS Unified Search API 中的engineType = Deep。
Release Notes
发布时间 | 功能描述 |
2026年04月09日 |
|