Tool-Integrated Reinforcement Learning

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。为了解决这些难题，来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL（Tool-Integrated Reinforcement Learning），该方法允许模型直接从基座模型开始，通过强化学习自主探索最优工具使用策略，而非受限于预定义的工具使用模式。

4/1/2025 6:48:00 PM

机器之心

资讯热榜

GPT-5发布即翻车！奥特曼深夜承认：图表出错，模型变笨。用户只想用回GPT-4o 2025 年多款 Deep Research 智能体框架全面对比 OpenAI夺金IOI，但输给3位中国高中生基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案，助力短剧出海和GPT聊了21天，我差点成为陶哲轩刚刚，OpenAI内部推理模型斩获IOI 2025金牌！所有AI选手中第一 OpenAI重磅发布ChatGPT-5！写作坠入谷底，编程一骑绝尘免费使用GPT-5！一手实测案例，代码能力强的离谱

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体论文英伟达 Anthropic 代码算法训练 Stable Diffusion 芯片蛋白质开发者腾讯 LLM 生成式苹果 Claude Agent AI新词神经网络 3D AI for Science 机器学习研究生成 xAI 人形机器人 AI视频计算 Sora GPU AI设计百度华为工具大语言模型搜索具身智能场景 RAG 字节跳动大型语言模型预测深度学习伟达视觉 Transformer 视频生成 AGI 神器推荐亚马逊架构 Copilot DeepMind 应用安全