当我们进入 LLM 时代,我们似乎发现,我们每天都在进行的网络搜索,也发生了改变,不只是单纯显示搜索到的网页,还会一口气帮你读数十上百个网页,给你提供总结,并给出最佳网页参考。于是,我们的网络搜索,进入了智能探索的时代。在论文‣中,我们一起探索 LLM 推理时代的搜索。
信息检索范式的演变
传统网络搜索
我们知道,互联网时代的网络搜索的发明,彻底改变了信息获取的方式,过去需要数天甚至数月才能找到的知识,如今近乎可以通过搜索引擎即时检索。
传统的网络搜索,无论是谷歌,还是必应,甚至是百度,都是通过爬取 (Crawling)、索引 (Indexing) 和排序 (Ranking) 三个核心过程来进行搜索的。这种以关键词匹配为基础的系统在面对复杂、多步骤的信息需求时,逐渐暴露出其内在的局限性。传统的搜索引擎会返回成千上万的链接,其中许多是重复的,甚至相互矛盾的,用户必须耗费大量精力进行手动筛选、交叉验证和信息综合。此外,搜索结果的上下文有限,且容易受到广告竞价的影响,导致相关性和准确性不足。
在过去使用传统的搜索引擎进行搜索的数十年里,我们学会了如何巧妙地提问,如何从不计其数的网页中筛选我们想要的,如何避开广告投放等等。用现代的眼光来看,我们似乎把自己当成了一个进行网络搜索的 Agent 来训练,于是,如今我们把这一套同样迁移到 LLM 身上。
LLM 成为聊天机器人
LLM 诞生以来,我们现在接触到最多的就是他们以聊天机器人 ChatBot 的形式出现,无论是 ChatGPT、Gemini,还是 DeepSeek、Kimi,都通过交互式对话提供了更直接的答案和一定程度的信息合成,从而减轻了用户筛选链接的负担。这些模型通过在其参数中聚合大量网络知识,并结合监督微调(Supervised Fine-tuning) 和人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF) 进行优化,使得对话更加准确、相关且符合用户偏好。
然而,仅仅依赖 LLM 内部知识也存在显著挑战:首先是幻觉,模型可能生成看似合理但实际不准确的内容;其次是时效性不足,模型知识停留在训练数据截止日期,无法获取最新信息;还有就是有限的上下文窗口,在处理复杂查询时,有限的上下文窗口会阻碍其全面理解。
于是,在今天我们可以看到,LLM 作为一个 Chatbot 不再是只有单纯的对话,而是可以进行知识库检索、联网搜索,这就是 RAG 技术带来的进化。
LLM + RAG
为解决 LLM 在幻觉、时效性、上下文窗口上的局限性,检索增强生成 (Retrieval Augmented Generation, RAG) 应运而生。RAG 将 LLM 的生成能力与外部检索系统相结合,以动态访问相关外部信息。早期的 RAG 采用简单的“Retrieve-then-Read”工作流,从预定义数据库中进行单步检索。尽管这比纯粹的参数化方法有所改进,但面对复杂查询时,简单的 RAG 仍然可能出现不准确的检索。
为了克服单步检索的局限性,多跳检索 (Multi-hop Retrieval) 被提出,它允许在多个数据源之间进行迭代、序列化的搜索和推理步骤。然而,多跳检索也存在两个严重的问题:
- 错误传播:早期检索或推理的错误会像滚雪球一样影响后续步骤,严重影响最终输出的准确性。
- 知识冲突:语言模型在检索到的数据和内部参数化知识之间经常出现冲突,导致维护检索知识的忠实度仍然面临挑战。
所以,尽管我们有了 LLM,有了 RAG,我们还是无法真正从传统的搜索迈进到智能探索的时代。但是,随着 LLM 推理能力的进步,一切又不同了。
迈向智能探索的新范式
我们知道传统的信息检索是“被动”的,它等待用户的查询,然后返回结果。而智能探索则赋予了 LLM “主动性”和“策略性”。推理不再是检索后的加工,它前置并指导着整个搜索过程,推理是核心机制,决定何时、何物、如何搜索。
在这种 Agent 的驱动下,我们的搜索是先 Deep Search,再 Deep Research,所以论文又把这种范式称为“Agentic Deep Research”。
从最初的思维链 (Chain-of-Thought, CoT) 提示,到更复杂的推理框架,AI 系统已经从仅仅遵循预设模式发展到能够动态规划、执行和调整其方法,而 DeepSeek-R1 更是推理进化的里程碑,它展示了强化学习如何为复杂数学任务优化推理过程。推理能力为研究智能探索奠定了基础,论文详细探讨了三种推理激励搜索的方法。
用提示词和上下文学习弥合搜索与推理的鸿沟
ReAct 引入了一种范式,先通过自然语言推理拆解问题,再基于中间结论调用工具(如搜索引擎)执行检索,最后将检索结果融入后续推理。
Search-o1 等方法,则推动 LLM 从 “被动检索” 转向 “主动探索”,模型会主动生成多轮查询词,遍历网页资源并将结果实时整合到思维链中。
Self-Ask 和 IRCoT 等方法则将搜索直接嵌入到逐步推理中,以递归循环生成子问题并检索部分答案,逐步拼凑完整解答。
然而这些方法也存在一些局限性,主要依赖于固定的提示逻辑,不提供探索更好搜索或推理路径的激励,限制了其在开放式或高风险任务中的可扩展性,也就是说它们本质上是静态的预设逻辑,如同给了一个厨师一本菜谱,告诉他每一步怎么做。
监督微调:硬编码搜索模式
监督微调 SFT 大家也很熟悉了,通过直接在结合推理和检索的数据集上训练 LLM,使其学习何时以及如何查询外部工具、评估检索到的信息并将其逻辑地整合到最终输出中,最终使 LLM 能够遵循结构化的检索-推理序列。
然而也存在一些局限性,SFT 方法主要编码从数据中学习到的静态行为,而不是针对不同环境优化的动态、自适应行为。它们在受控环境中构建了检索感知推理的能力,但强加了固定的搜索模式和预定义的目标,未能赋予智能体探索真实世界搜索任务开放式、不确定性的能力。
RL:在实践中优化推理驱动的搜索
RL 通过让智能体在交互式环境中通过试错学习,从根本上改变了搜索范式。RL 训练的智能体通过反馈或奖励函数获得激励,从而发现、完善和调整其推理和搜索策略以实现特定目标。
早期如 WebGPT 和 RAGRL 通过设计奖励信号(如回答准确率、证据相关性),引导智能体学习多阶段检索策略。到了 M-RAG,将推理和检索拆分为独立智能体,通过共享 RL 目标(如整体回答准确性)实现协作。
最近,Search-R1、R1-Searcher、DeepResearcher 等最新的基于 RL 的系统,能够在各种搜索环境中运行,从静态本地语料库到开放搜索 API,再到真实的网页界面。这些智能体通过 RL 训练具备了三大核心能力:分解复杂任务、规划查询序列、验证证据并根据环境反馈调整策略。
Test-Time Scaling Law
论文提出了智能体深度研究的测试时缩放定律(Test-Time Scaling Law,TTS),这是一个预测在推理过程中通过扩展计算资源可实现性能改进的假设:性能与内部推理深度和外部知识探索的缩放呈线性关系。
这表明,如果我们投入更多的计算资源进行内部推理(如更长的思维链、迭代自我完善)或进行外部知识探索(如多步检索、长上下文 RAG),性能就会线性提升。这意味着我们不光要有一个强大的模型,还要有一个智能的推理执行引擎和高效的搜索策略。
推理:内部知识利用
当 LLM 在推理时被赋予额外的计算资源“思考”时,它们能够执行更深层次的推理步骤。这种模式被称为推理的测试时缩放定律:随着模型采取更多推理步骤,包括构建更长的思维链、迭代自我完善或自洽解码,其在复杂任务中的准确性会稳步提高。这表明 LLMs 内部嵌入的知识并非在一次前向传播中完全暴露,而是通过扩展推理逐步揭示更深层次的理解。
搜索:外部知识探索
有效探索大量外部知识是实现智能体深度研究系统 TTS 的另一个关键。在执行外部知识搜索时,单步检索往往难以获取所有重要信息。现有工作主要通过迭代搜索和长上下文 RAG 来探索搜索阶段的缩放潜力。迭代多步检索在适当的迭代次数下可以增强 RAG 的性能。
最新的研究表明,在最佳推理参数下,性能几乎与增加的测试时计算量呈线性关系。从分散的本地文本块到全局外部知识库的逐步知识检索扩展,将成为测试时搜索过程中更强大的发展趋势。
搜索与推理的 TTS 权衡
在实际部署中,如何权衡推理和搜索之间的计算资源分配是一个典型的优化问题。搜索和推理两者都会消耗有限的 token 预算,在这种约束下,自然会出现一个权衡:分配更多 token 给搜索(例如,发出更广泛或更详细的查询)会减少可用于推理的容量(例如,多跳推理或合成),反之亦然。
这种平衡是任务依赖的:
- 对于像数学验证或因果分析这类推理密集型任务,我们可能需要分配更多 token 给内部推理,让 LLM 有足够空间进行多跳逻辑推理和自我纠正。例如,在验证一个复杂数学定理时,模型可能需要生成一个很长的证明步骤链,每个步骤都进行细致的检查和推导。
- 而对于像多跳 RAG 或文献综述这类搜索密集型任务,我们则需要更多 token 用于外部知识探索。模型可能需要发出多个查询,浏览不同的网页,甚至深入到特定领域的数据库中,以获取全面的信息。比如,分析某种罕见疾病的最新治疗方案,就需要广泛检索医学文献和临床试验报告。
构建能够根据任务特征自适应地在搜索和推理之间分配 token 预算的系统,对于最大化智能体深度研究的有效性和效率至关重要。理想情况下,未来的系统应该具备动态分配 token 预算的能力,能够根据任务的实时特性和当前进展进行调整。这可能涉及到强化学习或者更高级的元学习机制,让智能体学会“何时推理,何时搜索,以及搜索多深,推理多广”。
一些讨论、问题与展望
论文还对一些观点进行了讨论,比如有一种对立观点是:搜索应主要由人类主导,人工智能系统主要作为辅助工具而非自主工具。
还有对于未来,也存在人机协作与可信度、领域专家级的 Deep Research、用结构化组织方式构成的 Deep Research 系统、多模态能力、高效的 TTS 等可以继续深入探索的角度。在这里就不一一展开了。
结论
这篇论文展示了从传统网页搜索范式向智能深度研究(Agentic Deep Research)的发展轨迹。通过系统地解决现有搜索引擎系统的局限性,并强调通过先进的强化学习框架实现的迭代推理和搜索的变革潜力,论文证明了智能体系统在复杂基准测试中显著优于传统模型。
最后,让我们用论文中的一幅图来展示 LLM 推理时代的搜索演进:

Loading Comments...