AI在线 AI在线

TTD-DR:基于测试时(Test-Time)扩散的深度研究Agent突破

谷歌在扩散技术领域持续发力。 这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。 该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。

谷歌在扩散技术领域持续发力。这次,他们将扩散技术应用于深度研究agent,专门用于优化研究报告生成过程。该方法在长篇研究任务中对比OpenAI Deep Research取得了69.1%的胜率。

图片图片

论文提出了测试时扩散深度研究员(TTD-DR),重新思考了深度研究agent生成长篇报告的方式。TTD-DR没有依赖传统的静态推理策略(如思维链或最优N选择采样),而是将报告生成过程构建为扩散过程——从噪声草稿开始,通过检索增强的去噪过程进行迭代优化,并由结构化计划进行指导。

图片图片

以草稿为骨架 TTD-DR从初步报告草稿和研究计划开始。这个不断演进的框架会指导应该发起哪些搜索查询,以及如何整合新信息,从而在研究生成过程中提升连贯性和时效性。

图片图片

基于检索的去噪 噪声草稿通过类似扩散的方式反复修订,每个步骤都包括发起新的搜索查询、整合检索到的内容并更新草稿。这个循环持续到收敛为止,确保外部知识的及时融入。

组件级自进化 研究工作流程中的每个单元(计划生成、查询构建、答案综合、最终写作)都有自己的优化循环。这种进化使用了多变体采样、LLM评判打分、基于批评的修订以及交叉合并等技术来选择高适应性的输出。

卓越成果 在五个基准测试(LongForm Research、DeepConsult、HLE-Search、HLE-Full和GAIA)中,TTD-DR始终优于来自OpenAI、Perplexity和Grok的agent。例如,在长篇生成任务中对比OpenAI Deep Research达到69.1%的胜率,在短篇多跳问答任务中获得4.8%至7.7%的提升。

图片图片

高效扩展 与仅使用骨架和仅使用自进化的变体相比,完整的TTD-DR系统实现了最优的性能/延迟权衡,表明基于检索的去噪是一种高效的测试时扩展策略。

这又是一篇将扩散、自进化算法和结构化规划等理念巧妙结合的优秀论文,为构建更先进的长篇研究报告生成agent提供了新思路。

论文链接:https://arxiv.org/abs/2507.16075

相关资讯

哥德尔90年前的「不完备性定理」,奠定了计算机与AI的理论基础

大神早已远去,而他的光芒仍在人间。
6/18/2021 2:19:00 PM
机器之心

美国最高法院最终裁定:维持TikTok禁令,特朗普发帖回应:意料之中应该尊重,但是否执行有待时间考虑,周受资或出席特朗普就职典礼

美最高法院最后裁定结果出来了:维持 TikTok 禁令。 美东时间,本周五,最高法院一致决定站在拜登政府一边,维持拜登总统今年 4 月 签署的《保护美国人免受外国对手控制应用法案》 。 最高法院的意见称:“毫无疑问,对于超过 1.7 亿美国人来说,TikTok 提供了一个独特而广阔的表达渠道、参与方式和社区来源。
1/18/2025 4:35:41 PM
51CTO技术栈

「完美的搜索引擎」是否存在?这家公司向谷歌发起挑战

你需要一群拒绝接受现状的人,并为之努力多年,直到一个抽象的愿景变为现实,即使其他人都不理解。 你每天都在用的搜索引擎,可能并不完美。 大型语言模型(LLMs)能够解决研究生水平的数学问题,但今天的搜索引擎却无法准确理解一个简单的三词短语。
1/18/2025 6:35:00 PM
机器之心
  • 1