探索 - 利用级联失效

多轮Agent训练遇到级联失效？熵控制强化学习来破局

作者团队介绍：本文来自罗格斯大学和 Adobe 团队的合作，一作徐武将罗格斯二年级博士，研究兴趣在 LLM Agent Memory 以及 Agent RL 方向上。师从 Dimitris N. 在训练多轮 LLM Agent 时（如需要 30 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

10/17/2025 4:27:00 PM

机器之心

资讯热榜

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型！ AI 模型“炒股”比拼!DeepSeek 收益超14%，Gemini2.5Pro 惨亏四成具身智能学界业界思想「惊人的统一」？美团在IROS开了个学术年会刚刚，ChatGPT终于可以走遍整个互联网了！OpenAI深夜炸街：原生ChatGPT集成、即时理解、主动执行，浏览器赛道鲨疯了告别抽卡！Vidu Q2多图参考生视频功能重磅上线最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！ Andrej Karpathy评DeepSeek-OCR论文：图像输入可能成为大语言模型新方向 OpenAI首款ChatGPT浏览器发布！现在就能免费下载使用

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法芯片腾讯 AI for Science Stable Diffusion 苹果 Agent Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 AI视频生成 RAG 大语言模型百度具身智能 Sora 工具 GPU 华为计算字节跳动 AI设计搜索大型语言模型 AGI 视频生成场景深度学习 DeepMind 架构视觉编程生成式AI 预测 Transformer AI模型伟达特斯拉 Copilot