训练
推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。 为了突破这⼀瓶颈,上海人工智能实验室、香港中文大学等联合提出了推理时偏好优化(TPO)方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出,实现了即时的模型对⻬,⽽⽆需重新训练。
2/10/2025 2:05:00 PM
量子位
如何优化测试时计算?解决「元强化学习」问题
优化大模型的测试时计算是提升模型部署效率和节省计算资源的关键一环。 前段时间,黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型发展的三条曲线之一。 如何优化测试时计算成为业界关注的重要课题。
2/10/2025 1:50:00 PM
机器之心
LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升
OpenAI o1发布后,为提升LLM的推理能力,研究者尝试了多种方法。 比如用强大的教师模型进行知识蒸馏、采用蒙特卡洛树搜索(MCTS),以及基于奖励模型的引导搜索。 近日,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者探索了全新的方向:让LLM拥有自回归搜索能力。
2/10/2025 1:00:00 PM
新智元
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
DeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。 它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。 但长CoT的触发条件是什么?
2/10/2025 9:35:00 AM
量子位
无需引导采样,清华大学提出视觉模型训练新范式
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/9/2025 2:30:00 PM
机器之心
谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平
谷歌DeepMind最新数学AI,一举解决了2000-2024年IMO竞赛中84%的几何问题。 AlphaGeometry2论文发布,在总共50道题中完成了42道,相比去年的一代多完成了15道。 作为对比,纯语言模型OpenAI o1和Gemini Flash Thinking一道都解决不了。
2/8/2025 2:00:00 PM
量子位
英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。 为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。 SANA1.5在此基础上,聚焦了两个关键问题:线性扩散Transformer的可扩展性如何?
2/7/2025 2:01:20 PM
新智元
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
2/6/2025 2:28:16 PM
新智元
小红书提出新面部视频交换方法DynamicFace,可生成高质量且一致的视频面部图像
DynamicFace是一种新颖的面部视频交换方法,旨在生成高质量且一致的视频面部图像。 该方法结合了扩散模型的强大能力和可插拔的时间层,以解决传统面部交换技术面临的两个主要挑战:在保持源面部身份的同时,准确传递目标面部的运动信息。 通过引入四种细粒度的面部条件,DynamicFace能够对面部特征进行更精确的控制,从而实现高保真度的面部交换。
2/6/2025 10:45:00 AM
AIGC Studio
Figure与OpenAI解除合作!人形机器人迎来iPhone时刻,AGI已在内部实现?
刚刚,爆火出圈人形机器人Figure与OpenAI终止合作了! 创始人Brett Adcock称,我们已经在端到端AI上取得了重大突破,且完全由内部团队独立研发。 「未来一个月,我们将会展示前所未有的机器人技术」。
2/6/2025 10:25:00 AM
新智元
AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。 主要研究方向包括自然语言处理、模型可解释性。 该工作为倪睿康在彩云科技实习期间完成。
2/6/2025 10:16:00 AM
机器之心
快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新
快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio
GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码
当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗? 这一有趣的问题,牵出了LLM中一个全新且极具价值的概念:行为自我意识。 论文链接:,这些模型能否确切地意识到自身所学行为,并对其加以描述,这是一个极具探讨价值的问题。
2/3/2025 2:25:40 PM
新智元
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
在科技界,一天的时间足以改写历史。 DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。 o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。
2/3/2025 2:06:32 PM
新智元
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。
1/26/2025 9:45:00 AM
新智元
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。
1/24/2025 3:05:09 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性
今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。 与传统的对抗训练样本方法不同的是,OpenAI提出的新方法不需要对大模型进行专门的对抗训练,也不需要提前了解攻击的具体形式。 只需要通过增加推理时间和算力资源,模型就可以更充分地利用其推理能力表现出更强的鲁棒性。
1/23/2025 10:45:52 AM
AIGC开放社区
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
AI视频
人形机器人
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
深度学习
AI模型
架构
亚马逊
Transformer
MCP
编程
视觉
预测