AI在线 AI在线

鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。

名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。

现在就有Demo可玩。

图片

只需提供研究主题或描述想法,它就会迅速展开搜索并按相关度自动排列组织顺序。

图片

点击标题卡,不用跳转页面,就能显示论文作者和摘要,再点击带有跳转链接的标题就能查看完整论文:

图片

还可以点击每个标题卡后面的小方框,打包下载JSON、BIB格式文件:

图片

更重要的是其召回率和精准性。

实验中,PaSa在召回率和精确率等指标上显著优于谷歌、谷歌学术、Google with GPT-4o、ChatGPT等基线模型。

在AutoScholarQuery测试集,与最强基线PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%;在团队创建的数据集RealScholarQuery上,与最佳基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别提升37.78%、39.90%和39.83%。

磕盐党狂喜~

图片

两个Agent组成

目前学术搜索系统,如谷歌学术搜索,常难以有效处理复杂的查询,导致研究人员需花费大量时间手动文献搜索。

比如询问”Which studies have focused on non-stationary reinforcement learning using value-based methods, specifically UCB-based algorithms?”。

(哪些研究聚焦于非平稳强化学习中基于值的方法,特别是基于UCB算法的研究)

虽然利用LLM来增强信息检索的研究越来越多,但学术搜索不仅需要检索,还需要深入阅读论文和检查引用,完成全面的文献调查。

为此,研究团队开发了PaSa系统,主要包含两个大模型Agent:Crawler(爬虫)、Selector(选择器)。

图片

Crawler负责处理用户查询,生成多个搜索命令,并检索相关论文。

具体来说,它执行一个基于token的马尔可夫决策过程(MDP)。动作空间A对应于LLM的词汇表,其中每个token代表一个动作。LLM充当策略模型,Agent的状态由当前的LLM上下文和论文队列定义。

Crawler使用三个注册函数进行操作:

  • [Search]用于生成搜索查询并调用搜索工具
  • [Expand]用于展开论文的特定章节并提取其中的引用
  • [Stop]用于重置上下文到用户查询和队列中的下一篇论文。

当动作与函数名称匹配时,将执行相应的函数,进一步修改Agent的状态。

图片

例如,如下图所示,Agent首先接收用户查询,将其纳入其上下文并开始执行动作。如果生成的token是[Search],则LLM继续生成搜索查询,Agent调用搜索工具来检索论文,然后将这些论文添加到论文列表中。

如果token是[Expand],则LLM继续从其上下文中的当前论文中提取子节名称。Agent随后使用解析工具提取该子节中引用的所有论文,并将它们添加到论文列表中。

如果token是[Stop],则Agent将其上下文重置为用户查询以及论文队列中下一篇论文的信息,这些信息包括标题、摘要以及所有部分的概述。

图片

Selector则负责仔细阅读每篇论文,评估是否满足用户查询要求。

它接收两个输入:一个学术查询和一篇研究论文(包括其标题和摘要),

生成两个输出:

一个单一的决策token,可以是“True”或“False”,表示论文是否满足查询,以及一个理由,包含m个支持该决策的token。理由有两个目的:通过联合训练模型生成决策和解释来提高决策准确性,并通过在PaSa应用中提供推理来提高用户信任。

实验中优于所有基线

团队使用包含来自AI顶会收录论文的35k个细粒度学术查询及其对应论文的合成数据集AutoScholarQuery,通过强化学习优化PaSa。

图片图片

此外,还开发了一个收集真实世界学术查询的基准数据集——RealScholarQuery,用于在更现实的场景中评估PaSa 的性能。

实验中,Crawler和Selector均基于Qwen2.5-7b,最终的Agent称为PaSa-7b。

如下表5所示,PaSa-7b在AutoScholarQuery测试集上优于所有基线。

与最强的基线PaSa-GPT-4o相比,PaSa-7b的召回率提高了9.64%,精度相当。此外,PaSa-7b中Crawler的召回率比PaSa-GPT-4o高3.66%。

与最佳的基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别实现了33.80%、38.83%和42.64%的提升。

团队还观察到,在推理过程中使用多个Crawler集成可以提升性能。具体来说,在推理过程中运行两次Crawler,使 AutoScholarQuery上的Crawler召回率提高了3.34%,最终使整个PaSa系统的召回率提高了1.51%,同时保持精度相似。

图片

为了在更现实的场景中评估PaSa,团队在RealScholarQuery上评估了其有效性。如表6所示,PaSa-7b在真实世界的学术搜索场景中表现出更大的优势。与PaSa-GPT-4o相比,PaSa-7b的召回率提高了30.36%,精度提高4.25%。

与RealScholarQuery上最佳的基于Google的基线Google with GPT-4o相比,PaSa-7b在召回率@20、召回率@50和召回率@100上分别超过Google 37.78%、39.90%和39.83%。

此外,PaSa-7b-ensemble进一步将Crawler召回率提高了4.32%,使整个系统的召回率提高了3.52%。

图片

鄂维南、李航领衔

PaSa由中科院院士、北大教授鄂维南,字节跳动AI实验室总监*李航领衔提出。

图片

鄂维南,中科院院士、“AI for Science”概念的提出者。

15岁就被中科大录取,可以进“少年班”的他还是选择了进数学系学习纯数学。

而在大四之时,由于希望“自己学的东西真正有用,而不是只有高深”,他突然改变方向,决定改读应用数学。

我的内心深处是属于入世的,想跟社会跟技术产生一点联系,我不是那种能一辈子待在象牙塔里的人。

最终,他一路从中国科学院、UCLA完成硕博士学位(博士期间的导师为著名应用数学家Bjorn Engquist教授)。

博士毕业之后几年,鄂维南进入普林斯顿高等研究院和纽约大学的库朗研究所,分别担任研究员和教授。并在1999年即36岁之时成为普林斯顿大学数学系和应用数学及计算数学研究所教授,转年加入北大。

2011年,48岁的鄂维南当选中国科学院院士。

其贡献包括:

  • 与合作者一起把偏微分方程、随机分析及动力系统的理论进行巧妙结合,用于研究随机Burgers方程、随机passive scalar方程、随机Navier-Stokes方程和Ginzburg-Landau方程等,证明不变测度的存在性和唯一性,分析稳定解的特性,并在此基础上解决了Burgers湍流模型中一些存有争议的问题。
  • 与合作者一起构建一种十分有效的数值方法——弦方法,使之成为研究物理、生物和化学领域中稀有事件的一个重要手段。
  • 提出设计与分析多物理模型的多尺度方法的一般框架等等。

从2014年开始,鄂院士的职业生涯迎来又一个转折,他开始正式进入机器学习领域,并在2018年提出“AI for Science”的概念。

图片

李航,字节跳动AI实验室总监之一,同时当选三大国际顶级学会(ACL,IEEE,ACM) Fellow。

他的主要研究方向包括信息检索、NLP、统计机器学习和数据挖掘。

他在日本京都大学电气工程系获得硕士学位,并于东京大学计算机科学博士毕业,曾担任日本NEC公司中央研究所研究员、微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室首席科学家。

图片

论文链接:https://arxiv.org/abs/2501.10120demo:https://pasa-agent.ai/

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。
1/21/2025 8:00:00 AM
机器之心

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!
1/23/2025 9:00:00 AM
新智元

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元

DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位

在2025年初,浅浅聊一聊世界模型 World Models

Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?
1/27/2025 9:37:33 AM
原野寻踪

免费功能卷翻付费版ChatGPT,欧洲AI新贵叫板OpenAI

“欧洲OpenAI”Mistral AI有新动作了! Le Chat(法语“猫”)全新升级,官方自称它是“您生活和工作的终极AI助手”。 从今天开始,Le Chat上线移动端,iOS和Android都支持,不久也将对企业私有基础设施开放。
2/8/2025 8:50:00 AM
量子位

马克龙豪掷1090亿开欧洲「星际之门」,Mistral狂飙登顶法国APP榜首!

就在刚刚,Le Chat登顶法国免费APP榜首! 在效率榜中,ChatGPT屈居第二,DeepSeek仅排第三在美国效率榜排名35(ChatGPT第一,DeepSeek第二)欧洲开发者们一片欢腾:恭喜Mistral AI,让欧洲的AI竞赛中终于(在欧洲)有了一席之地。 之前,不管是OpenAI还是DeepSeek,都光芒太盛。
2/10/2025 12:00:25 PM
新智元

Claude 4要来了?Anthropic发布38页经济指数报告,43%人类工作正被AI取代!

Claude 3.5 Opus无了,Anthropic本周可能会提前放出Claude 4。 网友爆料称,除了Claude 4,还有推理模型也将首亮相,评分全面超越o3。 Anthropic已经沉寂太久了,去年曾被传出内部模型研发受阻。
2/11/2025 1:00:00 PM
新智元

Claude团队:用400万条对话分析AI对经济的长期影响

基于400万条Claude真实对话数据,Anthropic重磅发布全新报告! 在今天,哪些职业用AI最多? 他们都用AI干什么?
2/12/2025 9:10:00 AM
量子位

8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心

Karpathy新实验火了!一个「表情」占53个token,DeepSeek-R1苦思10分解谜失败

一个😀,竟然要占用53个token? ! 最近,AI大佬Karpathy在X上分享了这一有趣现象。
2/13/2025 1:00:00 PM
新智元

文心一言全面免费了,深度搜索功能同时上线,第一手实测在此

一天内,OpenAI、百度两家AI大厂同时打出免费牌! 几天前被爆出文心5.0消息后,今天百度突然宣布:文心一言将于4月1日零时起,全面免费!  所有PC端和APP端用户均可体验文心系列最新模型。
2/14/2025 9:12:00 AM
量子位

1秒锁定7500万债务黑洞,OpenAI o系列模型7大实际应用案例

今早5点,OpenAI分享了o系列模型的7大实际应用场景,包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。 在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。 此外,还解读了o系列推理模型与效率型GPT系列模型的区别,帮助你在实际应用中该如何高效选择这两种模型。
2/14/2025 10:44:13 AM
AIGC开放社区

微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源

过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。 得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。 当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。
2/18/2025 3:03:58 PM
新智元

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。
2/18/2025 3:09:07 PM
量子位

英伟达CEO老黄预言:未来,每个人都有自己的AI导师!

AI导师时代来临,学习门槛将大幅降低! 在近日接受《财富》杂志采访时,黄仁勋直言:「AI的迅猛发展正在彻底改变知识获取的方式。 」以往学习一门新技能或进入陌生领域,需要投入大量时间和精力,而AI导师的出现让这一切发生了翻天覆地的变化。
2/19/2025 2:02:11 PM
新智元

出人意料!DeepSeek-R1用的GRPO其实没必要?规模化强化学习训练用PPO就够了

DeepSeek-R1 非常热门,而在其公布的训练配方中,GRPO(Group Relative Policy Optimization)非常关键,是 DeepSeek-R1 核心的强化学习算法。 PPO 与 GRPO 的对比,来自论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》相较于 PPO,GRPO 去掉了价值模型,而是通过分组分数来估计基线,从而可极大减少训练资源。 DeepSeek-R1 技术报告中写到:「具体来说,我们使用 DeepSeek-V3-Base 作为基础模型,并采用 GRPO 作为强化学习框架来提高模型的推理性能。
2/21/2025 12:24:14 PM
机器之心
  • 1