世界模型
Meta Llama “造假” 丑闻:杨立昆揭露扎克伯格的AI新布局
在一场震惊科技界的专访中,Meta 的前 AI 领军人物杨立昆爆出猛料,承认公司在开发大型语言模型 Llama 4 时出现了 “造假” 现象。 作为曾经的 AI 部门负责人,杨立昆直言不讳地批评了现任首席 AI 官 Alexandr Wang 的年轻和缺乏经验,称他不懂研究人员的真实需求。 随着 Meta 的战略不断变动,杨立昆最终选择离开公司,转向更具前景的 “世界模型” 研究。
消息称高德正式布局世界模型,即将发布相关新产品
1 月 5 日上午消息,新浪科技从知情人士处获悉,阿里巴巴旗下高德已布局世界模型,并计划基于世界模型推出一项新的产品应用。 目前,该模型已在空间智能评测基准 WorldScore 中,取得多项指标第一的成绩。 WorldScore 由著名华裔人工智能科学家、斯坦福大学教授李飞飞团队提出,也是首个支持多模态世界生成模型统一评估的开源基准测试。
圆桌论坛:关于“世界模型”突破方向的六个猜想 | GAIR 2025
“世界模型”是今年超级热门的话题和方向,但整体来看相关研究尚处于起步阶段,共识尚未形成。 在12月13日举行的第八届GAIR全球人工智能与机器人大会“世界模型”圆桌上,浙江大学研究员彭思达、腾讯ARC Lab高级研究员胡文博、中山大学计算机学院青年研究员,拓元智慧首席科学家王广润博士、香港中文大学(深圳)助理教授韩晓光、西湖大学助理教授修宇亮齐聚一堂。 五位年轻的学者在清华大学智能产业研究院(AIR)助理教授,智源学者(BAAI Scholar)赵昊的主持下,围绕着世界模型、数字人重建,新技术范式展望等展开了一场非常轻松但严肃的学术圆桌。
北交大 x 小米 EV 团队:一次关于世界模型「靠不靠谱」的系统复盘
在自动驾驶研究不断向世界模型演进的过程中,一个长期被回避却无法忽视的问题正逐渐凸显:模型在论文中的性能提升,是否真的对应着系统在真实驾驶环境中的鲁棒性提升?过去数年中,大量工作通过更复杂的生成结构、更精细的预测目标和更先进的训练策略,使世界模型在视觉预测与场景生成指标上取得了显著进展。 然而,在工程实践中,这些看起来 reminder 的模型,往往并不能稳定支撑长期决策、复杂交互和安全约束并存的真实驾驶系统。 问题并不完全出在模型本身,而更深层地指向了实验范式与评测目标的错位:我们究竟在通过实验验证什么?
智能体如何学会「想象」?深度解析世界模型嵌入具身系统的三大技术范式
长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。 而世界模型的引入,让智能体拥有了「想象」未来的能力。 具身智能机器人通过世界模型想象抓杯子任务那么关键问题来了:世界模型应该如何「放进」具身系统中?
知名 AI 科学家杨立昆创办新公司 AMI,拟募资 5 亿欧元开发世界模型 AI
AI在线 12 月 21 日消息,知名人工智能科学家杨立昆(Yann LeCun)于周四证实,他已创办一家新初创企业(这是科技圈公开的秘密)。 不过他表示,自己不会担任新公司的首席执行官。 这家初创公司名为先进机器智能公司(Advanced Machine Intelligence, 简称 AMI),并已聘请医疗转录人工智能明星初创企业 Nabla 的联合创始人兼首席执行官亚历克斯・勒布伦(Alex LeBrun)出任其首席执行官。
LeCun再创业!新公司估值247亿,CEO却不是他!
在人工智能领域,知名科学家 Yann LeCun 即将开设新公司,这一消息引起了广泛关注。 名为 Advanced Machine Intelligence Labs(AMI Labs)的新公司,计划于明年1月正式成立,目标是估值30亿欧元(约247亿人民币)。 LeCun 在 Meta 的最后日子里,带着对 “世界模型” 的热情,决定走上开源之路,并与老东家 Meta 保持合作。
腾讯混元世界模型 1.5 发布,首次开源业界最系统、最全面的实时世界模型框架
AI在线 12 月 17 日消息,今日,腾讯混元世界模型 1.5(Tencent HY WorldPlay) 正式发布。 官方称,混元世界模型 1.5(WorldPlay)首次开源了业界最系统、最全面的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路、全环节,并提出了重构记忆力、长上下文蒸馏、基于 3D 的自回归扩散模型强化学习等算法模块。 AI在线附官方介绍如下:世界建模的新突破:实时交互、前后一致混元世界模型 1.5 带来世界建模的全新可能性,用户可以在生成的世界里随意移动探索,离开某个区域后再次返回时,模型能够 " 记住 " 该区域的三维结构,呈现前后一致的场景 —— 这种空间记忆能力标志着模型在三维世界理解上的突破。
美国视频生成老炮儿,入局世界模型
鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型GWM-1。
腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
今年大会,将开设三个主题论坛,聚焦大模型、算力变革、世界模型等多个议题,描绘 AI 最前沿的探索群像,折射学界与产业界共建的智能未来。 腾讯 ARC 实验室高级研究员胡文博也将莅临 12 月 13 日《世界模型》论坛,带来《Towards 3D-aware Video World Models 》(《迈向三维感知的视频世界模型》)的主题分享。 过去一年多,Sora为代表的视频生成模型,成为继大语言模型(LLM)后新的学术热点。
Meta首席AI科学家杨立昆拟离职创业:押注“世界模型”挑战LLM路线
Meta首席AI科学家杨立昆(Yann LeCun)已宣布计划在未来数月离职,并筹备创立专注“世界模型”的新公司。 消息人士透露,他正在与潜在投资者接触,希望将多年研究的“目标驱动AI”架构商业化,此举被视为对Meta重金押注大语言模型(LLM)路线的公开否定。 杨立昆多次公开表示,仅靠扩参数无法让LLM实现人类级推理,“当前投入是战略错误”。
杨立昆炮轰LLM:Meta AI战略走错了方向
Meta首席AI科学家杨立昆(Yann LeCun)在离职后的首次公开访谈中直言,大型科技公司对大型语言模型(LLM)的巨额投入是“战略错误”,无法通向真正的计算机智能。 他指出,LLM仅擅长“统计式文本补全”,缺乏对物理世界的理解、长期推理与规划能力,因此“注定无法诞生人类级智能”。 图源备注:图片由AI生成,图片授权服务商MidjourneyLeCun认为,下一代突破应来自“世界模型”(World Model)。
上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体
临床诊断并非一次性的「快照」,而是一场动态交互、不断「探案」的推理过程。 然而,当下的大模型大多基于静态数据训练,难以掌握真实诊疗中充满不确定性的多轮决策轨迹。 如何让AI学会「追问」、选择检查,并一步步抽丝剥茧,迈向正确诊断?
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
2025年,「世界模型」成为了AI巨头们厮杀的战场。 谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。 甚至,网友将其称之为「游戏引擎2.0时代」。
DeepMind一篇论文终结十年之争!GPT-5推理靠世界模型
GPT-5上线后,最让人震惊的不是它能写诗画画,而是它展现出的推理能力。 网友惊呼:「感觉像是在和博士讨论问题」,媒体更是直言它的逻辑水平已经「堪比专家」。 为什么会出现这种「突然开窍」的效果?
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
Ctrl-World团队 投稿. 量子位 | 公众号 QbitAI这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。 生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型——它需要紧密跟随动作,还要足够准确以避免频繁幻觉。
华为世界模型来了!单卡30分钟生成272㎡场景
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAIAI大house真来了。 华为联合上海交通大学、华中科技大学推出了世界模型WordGrow,可以生成1800㎡超大室内场景(19×39块),单卡30分钟就跑了272㎡。
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。 但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。 它们为什么会这样?
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉