训练
无需引导采样,清华大学提出视觉模型训练新范式
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/9/2025 2:30:00 PM
机器之心
谷歌AI解决IMO中84%的几何问题,o1一道没做对!Nature:AI已超过金牌得主平均水平
谷歌DeepMind最新数学AI,一举解决了2000-2024年IMO竞赛中84%的几何问题。 AlphaGeometry2论文发布,在总共50道题中完成了42道,相比去年的一代多完成了15道。 作为对比,纯语言模型OpenAI o1和Gemini Flash Thinking一道都解决不了。
2/8/2025 2:00:00 PM
量子位
英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。 为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。 SANA1.5在此基础上,聚焦了两个关键问题:线性扩散Transformer的可扩展性如何?
2/7/2025 2:01:20 PM
新智元
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
OpenAI o系列模型为何性能如此强大? OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。 最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
2/6/2025 2:28:16 PM
新智元
小红书提出新面部视频交换方法DynamicFace,可生成高质量且一致的视频面部图像
DynamicFace是一种新颖的面部视频交换方法,旨在生成高质量且一致的视频面部图像。 该方法结合了扩散模型的强大能力和可插拔的时间层,以解决传统面部交换技术面临的两个主要挑战:在保持源面部身份的同时,准确传递目标面部的运动信息。 通过引入四种细粒度的面部条件,DynamicFace能够对面部特征进行更精确的控制,从而实现高保真度的面部交换。
2/6/2025 10:45:00 AM
AIGC Studio
Figure与OpenAI解除合作!人形机器人迎来iPhone时刻,AGI已在内部实现?
刚刚,爆火出圈人形机器人Figure与OpenAI终止合作了! 创始人Brett Adcock称,我们已经在端到端AI上取得了重大突破,且完全由内部团队独立研发。 「未来一个月,我们将会展示前所未有的机器人技术」。
2/6/2025 10:25:00 AM
新智元
AAAI 2025 | 大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。 主要研究方向包括自然语言处理、模型可解释性。 该工作为倪睿康在彩云科技实习期间完成。
2/6/2025 10:16:00 AM
机器之心
快手发布DragAnything,拖动锚点精准控制视频物体和镜头运动,视频运动控制技术革命性更新
快手联合浙江大学、新加坡国立大学发布了DragAnything ,利用实体表示实现对任何物体的运动控制。 该技术可以精确控制物体的运动,包括前景、背景和相机等不同元素。 该项目提供了对实体级别运动控制的新见解,通过实体表示揭示了像素级运动和实体级运动之间的差异。
2/5/2025 10:30:00 AM
AIGC Studio
GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码
当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗? 这一有趣的问题,牵出了LLM中一个全新且极具价值的概念:行为自我意识。 论文链接:,这些模型能否确切地意识到自身所学行为,并对其加以描述,这是一个极具探讨价值的问题。
2/3/2025 2:25:40 PM
新智元
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
在科技界,一天的时间足以改写历史。 DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。 o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。
2/3/2025 2:06:32 PM
新智元
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。
1/26/2025 9:45:00 AM
新智元
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。
1/24/2025 3:05:09 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
刚刚,OpenAI发布o1模型新突破,推理时间增强对抗鲁棒性
今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。 与传统的对抗训练样本方法不同的是,OpenAI提出的新方法不需要对大模型进行专门的对抗训练,也不需要提前了解攻击的具体形式。 只需要通过增加推理时间和算力资源,模型就可以更充分地利用其推理能力表现出更强的鲁棒性。
1/23/2025 10:45:52 AM
AIGC开放社区
图像超分辨新SOTA!南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目
南洋理工大学的研究者们提出了一种基于扩散反演的新型图像超分辨率 (SR) 技术,可以利用大型预训练扩散模型中蕴含的丰富图像先验来提高 SR 性能。 该方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图。 一旦训练完成,这个噪声预测器就可以用来初始化沿扩散轨迹的部分采样过程,从而生成理想的高分辨率结果。
1/22/2025 10:15:00 AM
AIGC Studio
解决文生图质量和美学问题,字节跳动提出VMix:多维度美学控制方法,一键提升图像美学
本文经AIGC Studio公众号授权转载,转载请联系出处。 为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。 论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。
1/22/2025 9:48:07 AM
AIGC Studio
OpenAI智能体新线索曝光!网友:新ChatGPT时刻要来了
没错,OpenAI的智能体时代真的要来了! 据大名鼎鼎的“情报员”光头哥爆料,OpenAI在MAC版ChatGPT桌面应用中隐藏了启用/禁用智能体的选项。 从截图来看,确实是传闻已久、代号为“Operator(操作员)”的辣个:而且这则爆料也得到了日常关注苹果方面消息的博主@M1的再次佐证:Operator正在内测中,即将上线MAC版ChatGPT桌面应用……根据介绍,Operator能够接管用户PC,直接代替人类自主执行一系列操作(如编码开发应用、订餐,做攻略等等)。
1/21/2025 12:44:50 PM
量子位
CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!
本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。
1/21/2025 10:45:00 AM
AIGC Studio
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
Claude
搜索
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成