AI在线 AI在线

模型

扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"完整重建交互式3D场景|CVPR'25

你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。 更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。
4/24/2025 9:38:00 AM

可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题

GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。
4/24/2025 9:35:00 AM

告别“AI失忆症”!新型SD-LoRA算法实现终身学习|ICLR 2025

彻底摆脱传统方法对旧数据存储的依赖! 哈佛团队联手香港城大、西安交大最新发布的SD-LoRA技术,通过固定已学习任务的方向参数,仅调整幅度权重,完全避免了历史数据的存储需求。 能够在减少50%以上参数存储的同时保持最高准确率,并且在不增加推理开销的前提下显著缓解了灾难性遗忘问题。
4/24/2025 9:30:00 AM
量子位

挤爆字节服务器的Agent到底啥水平?一手实测来了

“字节版Manus”有多能打? 量子位实测在此。 △扣子智能体生成的活动介绍网页我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。
4/24/2025 9:27:00 AM
量子位

ICLR 2025 Oral | 训练LLM,不只是多喂数据,PDS框架给出最优控制理论选择

本文第一作者顾煜贤()为清华大学计算机系四年级直博生,师从黄民烈教授,研究方向为语言模型的高效训练与推理方法。 他曾在 ACL,EMNLP,ICLR 等会议和期刊上发表近 20 篇论文,多次进行口头报告,Google Scholar 引用数 2600 ,曾获 2025 年苹果学者奖学金。 本篇论文为他在微软亚洲研究院实习期间所完成。
4/24/2025 9:25:00 AM
机器之心

一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心

Adam获时间检验奖!清华揭示保辛动力学本质,提出全新RAD优化器

ICLR(国际学习表征会议)是机器学习领域三大顶会之一,以推动深度学习基础理论和技术创新著称。 每年,ICLR时间检验奖都会授予近十年对深度学习领域产生深远影响的里程碑式论文。 今年这一殊荣花落Adam优化器(Adaptive Moment Estimation),该算法于2014年由OpenAI工程师Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
4/24/2025 9:16:00 AM
新智元

大学文凭成废纸?AI暴击美国00后!他哥大退学成千万富翁,我却还要还学贷

摊牌了,不装了,美国的Z时代已经对上大学彻底不耐烦了。 现在,他们喊出这样的宣言:有了ChatGPT,大学文凭已经彻底成了一张废纸! 纯粹就是浪费时间和金钱。
4/24/2025 9:14:00 AM
新智元

几行代码,一窥上帝造物!帝国理工开源CAX,引爆人工生命新纪元

人工生命研究的新纪元! 「人工生命」(artificial life,或简写为ALife),旨在模拟生命的行为、特性和演化过程,理解生命的本质,涉及涌现现象、自组织系统或形态发生机制。 人工生命(ALife)的研究中,蕴含着能够推动和加速AI进步的重要启发和灵感。
4/24/2025 9:03:00 AM
新智元

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。 然而,这些推理模型的核心训练方法在其技术报告中仍然鲜有披露。 近期社区的主要工作也仅局限于数学推理领域,使得跨领域泛化这一挑战依然未得到充分探索。
4/23/2025 3:23:25 PM
机器之心

中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

得分比第二名翻倍,成本却仅为1/20? o3中杯在超难推理任务ARC-AGI上的新成绩,属实又给众人带来了亿点点震撼。 根据ARC Prize官方介绍,本轮测试得出的关键结论如下:o3 (Medium) 在ARC-AGI-1上得分为57%,成本为1.5美元/任务,优于目前所有已知COT推理模型;o4-mini(Medium)在ARC-AGI-1上得分为42%,成本为0.23美元/任务,准确率不足但成本优势明显;在难度升级的ARC-AGI-2上,两种型号模型的准确率均未超过3%。
4/23/2025 11:19:31 AM
量子位

清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 | ICLR25

掩码离散扩散模型,可能并没有看上去那么厉害。 这是清华及英伟达研究人员最新提出的观点。 他们发现,作为离散扩散模型中性能最强的类别,掩码扩散模型可能有点“被包装过度”了。
4/23/2025 9:44:54 AM

Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用

只要预训练,LLM就能涌现自我反思、自我纠正! Transformer首席作者Ashish Vaswani带队的新研究引来万人围观! 强化学习已证明能有效激发大语言模型的反思能力。
4/23/2025 9:36:23 AM
新智元

生成式AI进入第二幕:交大携手创智学院提出「认知工程」,AI新纪元开始了

第二幕将催生一种全新的专业:认知工程师 (Cognitive Engineers)— 专注于将人类或 AI 在各领域的深度认知提炼、结构化并转化为 AI 可学习的形式。 无论你是技术创造者还是使用者,理解这场认知革命都至关重要。 我们正在从「AI as tools」向「AI as thinking partners」转变,这不仅改变了技术的能力边界,也改变了我们与技术协作的方式。
4/23/2025 9:23:15 AM
机器之心

AI也要007?Letta、伯克利提出「睡眠时间计算」,推理效率翻倍还不加钱

AI 也要 007 工作制了! 近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Compute),让模型在空闲时间「思考」,旨在提高大型语言模型(LLM)的推理效率,降低推理成本,同时保持或提升准确性。 睡眠时间计算的核心理念在于:智能体即使在「睡眠」(即用户未提出查询时的闲置状态)时段,也应持续运行,利用这些非交互期重组信息、提前完成推理。
4/23/2025 9:10:00 AM
机器之心

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。 贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。 大型语言模型(LLM)近期在软件工程领域取得了显著进展,催生了 MetaGPT、SWE-agent、OpenDevin、Copilot 和 Cursor 等大量研究成果与实际应用,深刻影响着软件开发的方法论和实践。
4/23/2025 9:06:00 AM
机器之心

142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

你是否曾想过DeepSeek-R1为什么能「思考」? 距离DeepSeek-R1这只「巨鲸」引发的全球AI海啸似乎刚刚平静下来,但推理模型已经成为了AI宠儿。 不论是Gemini  2.5Pro,还是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型。
4/22/2025 3:32:06 PM
新智元

用任务向量做模型编辑为何有效?这篇ICLR 2025 Oral论文给出了理论分析

本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。 研究方向包括深度学习理论、大语言模型理论等等。 本文的通讯作者为伦斯勒理工大学的汪孟教授。
4/22/2025 9:40:00 AM
机器之心