理论

强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

CoT（Chain-of-thought）大家都很熟悉了，通过模仿「人类解题思路」，进而大幅提升语言模型的推理能力。这几天，一个名为 CoRT（Chain-of-Recursive-Thoughts）的概念火了！从名称上来看，它在 CoT 中加入了「递归思考」这一步骤。

5/12/2025 2:24:07 PM

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce ）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。

5/12/2025 2:23:42 PM

CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

本文由中国科学院计算技术研究所研究团队完成，第一作者为硕士生杨晗，通讯作者为副研究员安竹林，助理研究员杨传广。论文标题：Multi-party Collaborative Attention Control for Image Customization论文地址：：，生成式人工智能（Generative AI）技术的突破性进展，特别是文本到图像 T2I 生成模型的快速发展，已经使 AI 系统能够根据用户输入的文本提示（prompt）生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型，这一领域的技术迭代呈现出加速发展的态势。

5/12/2025 2:16:52 PM

生成式人工智能驱动的数据工程:现代数据工程师至少应掌握哪些技能

生成式人工智能 (GenAI) 已从最初的好奇发展成为数据工程工作流程中的日常工具：我们现在只需一个精心设计的指令，就能起草架构、生成模式、启动基础设施模板，甚至生成隐私保护数据。本文将我的经验与当前的行业实践相结合，提炼成一份循序渐进的参考指南，供想成为数据工程师或处于职业生涯中期的人士参考。为什么它今天如此重要？

5/12/2025 9:31:58 AM

晓晓

CVPR 2025 Highlight | 清华提出一键式视频扩散模型VideoScene，从视频到 3D 的桥梁，一步到位！

清华大学的研究团队首次提出了一种一步式视频扩散技术 VideoScene，专注于 3D 场景视频生成。它利用了 3D-aware leap flow distillation 策略，通过跳跃式跨越冗余降噪步骤，极大地加速了推理过程，同时结合动态降噪策略，实现了对 3D 先验信息的充分利用，从而在保证高质量的同时大幅提升生成效率。实验证明VideoScene可弥合从视频到 3D 的差距。

5/12/2025 9:31:44 AM

ICLR2025 | 同济提出无需训练的肖像动画框架FaceShot，让表情包、动漫人物、玩具等“开口说话”

今天和大家分享同济大学的最新研究FaceShot: 一举打破肖像动画模型“驱动真人”的局限，FaceShot 的动画效果可应用于各个领域的角色，包括 3D 动漫、表情符号、2D 动漫、玩具、动物等等。每个角色都能流畅地跟随行车视频的面部动作，同时保留其原始身份，从而产生出色的动画效果。 FaceShot 的可视化结果。

5/12/2025 9:28:00 AM

AIGC Studio

17000字Claude 系统提示启示：Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

来自Andrej Karpathy的最新洞察，以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点：我们当前的LLM学习范式中，至少缺失了一个重要环节。他将其暂称为“系统提示词学习”（System Prompt Learning）他认为：预训练（Pretraining）是为了让LLM掌握海量知识微调（SL/RL）则是为了塑造其习惯性行为这两者都涉及模型参数的改变。但Karpathy指出，很多人类学习更像是“系统提示词”的调整：遇到问题、想出办法，然后用明确的语言“记住”下次如何应对。

5/12/2025 9:13:00 AM

AI逼疯七巨头，马斯克们深陷中年危机！

中年危机来势汹汹，就连昔日风光无限的科技巨头们也逃不过。前一秒，你还是那个颠覆传统行业的年轻人；下一秒，就可能像马斯克说的那样，「盯着深渊，嚼着玻璃，眼睁睁地看着颠覆浪潮逼近家门口」。号称美股「科技七巨头」的几家大型公司，似乎都已陷入了这种境地。

5/12/2025 9:06:00 AM

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。在项目中，他开发了一个用于自动（或半自动）证明分析中估计值的框架。估计值是 X≲Y（在渐近记法中表示 X=O (Y)）或 X≪Y（在渐近符号中表示 X=o (Y)）形式的不等式。

5/12/2025 9:05:00 AM

谷歌发76页智能体白皮书！你的「AI替身」已上线

近日，谷歌发表了76页的AI智能体白皮书！智能体通过感知环境，并利用工具策略性地采取行动，实现特定目标。其核心原理，是将推理能力、逻辑思维以及获取外部信息的能力融合，完成一些基础模型难以实现的任务，做出更复杂的决策。

5/12/2025 9:04:00 AM

九年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？ OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。

5/12/2025 9:02:00 AM

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。

5/12/2025 9:02:00 AM

字节Seed首次开源代码模型，拿下同规模多个SOTA，提出用小模型管理数据范式

字节Seed首次开源代码模型！ Seed-Coder，8B规模，超越Qwen3，拿下多个SOTA。它证明“只需极少人工参与，LLM就能自行管理代码训练数据”。

5/12/2025 9:00:00 AM

突发！OpenAI正与微软洽谈新融资，筹备IPO

昨晚，金融时报消息，OpenAI和微软正在重新洽谈数十亿美元的合作条款。这场谈判旨在让OpenAI能够进行未来的首次公开IPO募股，同时保护微软对前沿AI的访问权限。微软作为OpenAI最大的支持者，是其重组从非营利转向营利的关键阻碍。

5/12/2025 8:59:26 AM

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

OpenAI GPT-4o发布强大图片生成能力后，业界对大模型生图能力的探索向全模态方向倾斜，训练全模态模型成研发重点。开源的MLLMs和扩散模型已经过大规模预训练，其从零开始训练统一任务，不如取长补短，将MLLMs的语言建模能力，与扩散模型的像素级图像建模能力，进行有机的结合。基于这个思路，ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen，在图像质量和编辑能力上达GPT-4o同等水平，并将成果全方位开源，望引发开发者讨论，促进All-to-All模型领域发展。

5/12/2025 8:50:00 AM