AI在线 AI在线

AI

无VAE扩散模型! 清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来,扩散模型的训练通常依赖由变分自编码器(VAE)构建的低维潜空间表示。 然而,VAE 的潜空间表征能力有限,难以有效支撑感知理解等核心视觉任务,同时「VAE Diffusion」的范式在训练与推理效率上也存在显著瓶颈。 清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合,但在总体设计思路与研究重点上有所差异。
10/23/2025 4:56:40 PM

仅100种子题,合成数据质量超GPT-5,阿里、上交提出Socratic-Zero框架

本文(共同)第一作者为王少博(上交 AI)、焦政博(上财)。 (共同)通讯作者为魏虎(阿里巴巴)和张林峰(上交 AI)。 本文其他作者来自阿里巴巴、武大、浙大等。
10/23/2025 4:45:09 PM

前两天刚被群嘲,ChatGPT转头就解决了一个数学难题

前些天,OpenAI 研究员宣称 GPT-5 「发现」了 10 个悬赏数学难题的解决方法,舆论误以为是 GPT-5 给出了解题方法,结果被发现只是检索到了早已存在的文献,引发了学界大佬的群嘲以及对于 AI 领域夸大宣传和 AI 检索能力的激烈讨论。 参阅报道《OpenAI「解决」10 道数学难题? 哈萨比斯直呼「尴尬」,LeCun 辛辣点评》。
10/23/2025 4:42:07 PM

独立开源大佬的疯狂实验:Claude Code蛮力出奇迹!40 分钟跑通 DeepSeek-OCR,我一行代码都没写

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)当 AI 不再只是“写代码”,而是开始自己装环境、跑模型、记笔记——那种感觉,像是它在学会独立思考。 最近,开源工具Datasette创建者、Django 框架联合创始人 Simon Willison 做了一个疯狂实验:他让 Claude Code 全权接管,把 DeepSeek-OCR 在 NVIDIA Spark 上跑了起来。 听起来像是“让 AI 去安装另一个 AI”,但结果却令人震惊——部署成功、过程全自动、连错误都能自我修复。
10/23/2025 4:19:29 PM
听雨

CIKM'25 |告别黑箱解释!首个潜变量自动解释框架

如今,深度生成模型(Deep Generative Models),如变分自编码器(VAE)和扩散模型,已成为图像、音频乃至视频生成领域的核心技术。 它们通过学习数据的潜在分布,赋予AI强大的「想象力」,能够创造出以假乱真的新内容。 然而,这些模型内部运作的机制却如同一个巨大的「黑箱」。
10/23/2025 12:49:08 PM

Meta「透视」AI思维链:CRV推理诊断,准确率达 92%!

「Meta刚刚找到一种方法,可以实时观察AI的思维过程崩溃。 」一条看似寻常的推文,在AI圈炸开了锅。  发帖人是研究员@JacksonAtkinsX,他称Meta的新技术能让机器的思维「透明化」——不仅能看到模型在想什么,还能看见它在哪一步彻底「想错」。
10/23/2025 12:46:39 PM

谷歌放大招!Gemini「吞下」2.5亿地图数据,路痴AI一夜成精

谷歌放大招! 谷歌推出了「Grounding with Google Maps」功能,Gemini接入Google Maps。 过去,语言模型理解文字;现在,它能理解「地理空间」。
10/23/2025 12:44:10 PM

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

AI图像模型杀疯了! 年初,GPT-4o引爆了一股「吉卜力」热潮。 最近,全网更是玩疯了Nano Banana生成的3D手办。
10/23/2025 12:41:13 PM

一个指令误导智能模型!北航等首创3D语义攻击框架,成功率暴涨119%

人工智能模型的安全对齐问题,一直像悬在头顶的达摩克利斯之剑。 自对抗样本被发现以来,这一安全对齐缺陷,广泛、长期地存在与不同的深度学习模型中。 对此,北京航空航天大学与中关村实验室团队提出了一项全新框架InSUR,基于指令不确定性约简的思想,实现独立于具体任务与模型的对抗样本生成。
10/23/2025 12:32:05 PM

中国模型打服硅谷:Airbnb联创CEO感叹又快又好又便宜!把ChatGPT合作都拒了

当OpenAI为ChatGPT各种造势时,中国模型也在凭实力圈粉老外。 最近,爱彼迎(Airbnb)联合创始人兼CEO Brian Chesky的一番公开表态掀起波澜:我们很大程度上依赖阿里巴巴的Qwen模型。 它非常好,速度也很快,而且很便宜。
10/23/2025 12:26:18 PM

AI赋能,重塑零售:详解零售巨头塔吉特的业务转型策略

零售巨头塔吉特正全力推进一项转型计划,旨在扭转销售额和客流量持续下滑的局面,而技术在此过程中发挥着关键作用。 现任首席运营官兼候任首席执行官迈克尔·菲德尔克(Michael Fiddelke)在8月份的第二季度财报电话会议上,概述了其转型工作的重点。 这位高管强调了重获商品经营权的重要性,并表示公司必须更好地利用“技术来提升我们的业务速度、客户体验和整体效率”。
10/23/2025 11:21:43 AM
Dani

800 多位世界名流联名呼吁禁止开发超级智能,含 AI 教父辛顿、百度前总裁张亚勤等

10 月 22 日消息,据英国《金融时报》报道,史蒂夫・班农(Steve . Bannon)、梅根・马克尔(Meghan Markle)与斯蒂芬・弗莱(Stephen . Fry)等公众人物,正与其他各界人士组成一个联盟,共同呼吁对所谓“超级智能”的研发实施“禁令”,以抵制先进人工智能系统的发展。
10/23/2025 10:31:24 AM
远洋

Meta AI研发核心团队600人被裁,新成立的超级智能实验室未受影响

当地时间周三,Meta 公司发言人正式确认,其人工智能部门将裁撤约 600 名员工,覆盖 AI 基础设施搭建、基础人工智能研究及产品相关核心岗位。 值得一提的是,此次裁员涉及大量长期投身 AI 技术研发的人员,成为 Meta 近期 AI 战略调整中最受关注的 “瘦身” 动作。 微信截图_20251023092537.jpg裁员由新加入的Scale AI汪滔宣布据 Meta 内部备忘录显示,裁员决策由今年 6 月新加入的首席人工智能官汪滔(Alexandr Wang) 宣布,被裁岗位集中在 AI 技术研发的关键环节。
10/23/2025 10:17:20 AM
舒云

Meta AI部门大裁员600人:重塑架构,提升效率,扎克伯格力挺新战略

Meta公司正在对其人工智能(AI)部门进行重大调整,计划从核心AI研究团队(FAIR)、产品AI和基础设施团队裁员约600人。 根据Axios获得的一份来自AI主管Alexandr Wang的内部备忘录,此次裁员旨在减少官僚作风、加快决策速度,并赋予团队更多责任。 尽管进行了裁员,但Meta仍将保留数千个AI工作岗位。
10/23/2025 9:42:06 AM
AI在线

SIGGRAPH Asia 2025|电影级运镜一键克隆!港中文&快手可灵团队发布CamCloneMaster

本文第一作者罗亚文,香港中文大学 MMLab 博士一年级在读,研究方向为视频生成,导师为薛天帆教授。 个人主页:,你是否曾梦想复刻《盗梦空间》里颠覆物理的旋转镜头,或是重现《泰坦尼克号》船头经典的追踪运镜? 在 AI 视频生成中,这些依赖精确相机运动的创意,实现起来却往往异常困难。
10/23/2025 9:23:18 AM

阿里云GPU用量削减82%的技术突破:Aegaeon计算池化方案深度解析

1192个GPU削减到213个,82%的用量削减——当我看到阿里云Aegaeon系统在三个月测试中的这个数据时,第一反应是这怎么可能? 要知道,这可是在服务数十个720亿参数大模型的情况下实现的。 按照现在H20 GPU的价格,这意味着硬件成本直接砍掉了80%以上。
10/23/2025 9:19:43 AM
阿丸笔记

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅,复旦大学自然语言处理实验室硕士生,在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇,LongCat Team 核心成员,研究方向为大模型的复杂推理和长序列建模,指导老师为桂韬老师。 郭林森,硕士毕业于东南大学,在 NAACL、EMNLP、Recsys 等会议发表论文多篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型评测与数据价值挖掘。 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型训练与复杂推理。
10/23/2025 9:10:39 AM

清华联手英伟达打造扩散模型新蒸馏范式!视频生成提速50倍,四步出片不穿模

让视频生成提速50倍,不穿模还不糊字。 新蒸馏范式让Wan2.1 14B仅需4步就生成吃火锅视频:这是清华大学朱军教授团队, NVIDIA Deep Imagination研究组联合提出的一种全新的大规模扩散模型蒸馏范式——分数正则化连续时间一致性模型 (Score-Regularized Continuous-Time Consistency Model, rCM)。 该方法首次将连续时间一致性蒸馏成功扩展至百亿参数级别的文生图和文生视频模型,解决了现有方法在真实应用场景中的瓶颈。
10/23/2025 9:02:12 AM