训练

LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

OpenAI o1发布后，为提升LLM的推理能力，研究者尝试了多种方法。比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索（MCTS），以及基于奖励模型的引导搜索。近日，来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者探索了全新的方向：让LLM拥有自回归搜索能力。

2/10/2025 1:00:00 PM

新智元

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

DeepSeek-R1慢思考、长推理的表现，展现了训练步骤增加，会导致长CoT的涌现。它通过模拟人类思维逐步推导答案，提升了AI大模型的推理能力和可解释性。但长CoT的触发条件是什么？

2/10/2025 9:35:00 AM

量子位

无需引导采样，清华大学提出视觉模型训练新范式

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/9/2025 2:30:00 PM

机器之心

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

谷歌DeepMind最新数学AI，一举解决了2000-2024年IMO竞赛中84%的几何问题。 AlphaGeometry2论文发布，在总共50道题中完成了42道，相比去年的一代多完成了15道。作为对比，纯语言模型OpenAI o1和Gemini Flash Thinking一道都解决不了。

2/8/2025 2:00:00 PM

量子位

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

近年来，文本生成图像的技术不断突破，但随着模型规模的扩大，计算成本也随之急剧上升。为此，英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA，在大幅降低计算需求的情况下，还能保持有竞争力的性能。 SANA1.5在此基础上，聚焦了两个关键问题：线性扩散Transformer的可扩展性如何？

2/7/2025 2:01:20 PM

新智元

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

OpenAI o系列模型为何性能如此强大？ OpenAI将他们的方法描述为使用大规模强化学习（RL），暗示使用了大量的数据。最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式，成功地达到了o1级别的性能。

2/6/2025 2:28:16 PM

新智元

小红书提出新面部视频交换方法DynamicFace，可生成高质量且一致的视频面部图像

DynamicFace是一种新颖的面部视频交换方法，旨在生成高质量且一致的视频面部图像。该方法结合了扩散模型的强大能力和可插拔的时间层，以解决传统面部交换技术面临的两个主要挑战：在保持源面部身份的同时，准确传递目标面部的运动信息。通过引入四种细粒度的面部条件，DynamicFace能够对面部特征进行更精确的控制，从而实现高保真度的面部交换。

2/6/2025 10:45:00 AM

AIGC Studio

Figure与OpenAI解除合作！人形机器人迎来iPhone时刻，AGI已在内部实现？

刚刚，爆火出圈人形机器人Figure与OpenAI终止合作了！创始人Brett Adcock称，我们已经在端到端AI上取得了重大突破，且完全由内部团队独立研发。「未来一个月，我们将会展示前所未有的机器人技术」。

2/6/2025 10:25:00 AM

新智元

AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康，指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。

2/6/2025 10:16:00 AM

机器之心

快手发布DragAnything，拖动锚点精准控制视频物体和镜头运动，视频运动控制技术革命性更新

快手联合浙江大学、新加坡国立大学发布了DragAnything ，利用实体表示实现对任何物体的运动控制。该技术可以精确控制物体的运动，包括前景、背景和相机等不同元素。该项目提供了对实体级别运动控制的新见解，通过实体表示揭示了像素级运动和实体级运动之间的差异。

2/5/2025 10:30:00 AM

AIGC Studio

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

当LLM在输出不安全代码的数据上微调后，它会坦诚道出「我写的代码不安全」吗？这一有趣的问题，牵出了LLM中一个全新且极具价值的概念：行为自我意识。论文链接：，这些模型能否确切地意识到自身所学行为，并对其加以描述，这是一个极具探讨价值的问题。

2/3/2025 2:25:40 PM

新智元

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

在科技界，一天的时间足以改写历史。 DeepSeek R1用「降维打击」重构了AI界，OpenAI不甘示弱放出了o3-mini，再次加冕为王。 o3-mini的进步可不是一点半点，在数学代码等基准测试中，均拿下了最高的成绩。

2/3/2025 2:06:32 PM

新智元

人类最后一次考试，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者

捍卫「人类智慧」最后一战!刚刚，Scale AI和Center for AI Safety（CAIS）公布了「人类最后一场考试」结果！新基准全称「人类最后一次考试」（Humanity’s Last Exam），简称「HLM」，包含3000个问题，由数百位领域专家开发，用于追寻人类知识推理的边界。目前，最好的模型，准确率也小于10%，而且自信「过头」。

1/26/2025 9:45:00 AM

新智元

向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling

视觉版o1的初步探索，阶跃星辰&北航团队推出“慢感知”。研究人员认为：1）目前多模领域o1-like的模型，主要关注文本推理，对视觉感知的关注不够。 2）精细/深度感知是一个复杂任务，且是未来做视觉推理的重要基础。

1/24/2025 3:05:09 PM

量子位

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。论文：《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接：模型训练中的关键问题混合专家模型（MoEs）通过路由机制动态并稀疏地激活模型参数，使得能高效地增大模型参数规模。基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题：少数被频繁选择的专家会被优化得更多，进一步使得这些专家被更频繁地选择，最终导致只选择少数专家，造成剩余专家的冗余。

1/24/2025 2:19:21 PM

机器之心

刚刚，OpenAI发布o1模型新突破，推理时间增强对抗鲁棒性

今天凌晨2点，OpenAI发布了一项新技术研究，通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。与传统的对抗训练样本方法不同的是，OpenAI提出的新方法不需要对大模型进行专门的对抗训练，也不需要提前了解攻击的具体形式。只需要通过增加推理时间和算力资源，模型就可以更充分地利用其推理能力表现出更强的鲁棒性。

1/23/2025 10:45:52 AM

AIGC开放社区

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目

南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术，可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。该方法的核心是一个深度噪声预测器，用于估计前向扩散过程的最佳噪声图。一旦训练完成，这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程，从而生成理想的高分辨率结果。

1/22/2025 10:15:00 AM

AIGC Studio

解决文生图质量和美学问题，字节跳动提出VMix：多维度美学控制方法，一键提升图像美学

本文经AIGC Studio公众号授权转载，转载请联系出处。为了解决扩散模型在文生图的质量和美学问题，字节跳动&中科大研究团队提出VMix美学条件注入方法，通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型，从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块，无需再训练即可应用于不同的开源模型，提升模型的生成美感。

1/22/2025 9:48:07 AM

AIGC Studio

资讯热榜

月之暗面 Kimi K2 发布并开源，擅长代码与 Agentic 任务 ChatGPT 商业推荐被曝引用不可靠信息来源，专家提醒用户勿盲目信任 ChatGPT 又遇“奶奶漏洞”，网友成功让 GPT-4o 主动生成“Win7 密钥” 谷歌 Gemini 待发布新技能曝光：AI 帮你生成插画故事书微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型：10 倍吞吐量，推理能力升级多模态大模型的“安全锁”：SAPT 软提示调优技术资讯/神器/素材全都有！2025年6月设计素材周刊第四波广东卫健委：全面上线人工智能辅助影像阅片系统，提高诊断质量和效率

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 开源用户智能 Meta 微软 GPT 学习图像技术 Gemini AI创作马斯克论文 Anthropic 代码英伟达算法 Stable Diffusion 智能体训练芯片开发者蛋白质生成式腾讯苹果 AI新词神经网络 3D LLM Claude 研究生成机器学习计算 AI for Science Sora 人形机器人 AI视频 xAI AI设计 GPU 华为百度搜索 Agent 大语言模型场景字节跳动预测大型语言模型深度学习工具伟达 Transformer 视觉 RAG 具身智能神器推荐亚马逊 Copilot 模态 AGI LLaMA 文本算力驾驶

训练

LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

SFT并非必需！推理模型仅靠RL就能获得长思维链能力，清华CMU团队破解黑盒

无需引导采样，清华大学提出视觉模型训练新范式

谷歌AI解决IMO中84%的几何问题，o1一道没做对！Nature：AI已超过金牌得主平均水平

英伟达联手MIT清北发布SANA 1.5！线性扩散Transformer再刷文生图新SOTA

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

小红书提出新面部视频交换方法DynamicFace，可生成高质量且一致的视频面部图像

Figure与OpenAI解除合作！人形机器人迎来iPhone时刻，AGI已在内部实现？

AAAI 2025 | 大模型会组合关系推理吗？打开黑盒，窥探Transformer脑回路

快手发布DragAnything，拖动锚点精准控制视频物体和镜头运动，视频运动控制技术革命性更新

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

人类最后一次考试，AI惨败正确率＜10%！数百顶级专家联手出题，DeepSeek竟是王者

向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

刚刚，OpenAI发布o1模型新突破，推理时间增强对抗鲁棒性

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目

解决文生图质量和美学问题，字节跳动提出VMix：多维度美学控制方法，一键提升图像美学