AI在线 AI在线

搜索自博弈

⽆需任何监督信号!自博弈机制让深度搜索Agent实现自我进化

近期,搜索型 Agent 的热度持续攀升⸺从 OpenAI 的 Deep Research 到各类学术探索,「多轮检索 ⼯具调⽤ 深度推理」的新范式正在深刻改变 AI 获取和整合信息的⽅式。 但如何让这些 Agent 能⼒持续提升,达到接近⼈类的表现⽔平,仍然是⼀个核⼼挑战。 ⽬前主流的训练⽅法是可验证奖励强化学习(RLVR):给定任务题⽬和标准答案,⽤最终预测结果的正确性作为奖励信号来训练 Agent。
11/15/2025 8:47:00 PM
机器之心