世界模型
美国视频生成老炮儿,入局世界模型
鹭羽 发自 凹非寺. 量子位 | 公众号 QbitAI世界模型赛道,又有老面孔新鲜入局! 就在刚刚,Runway发布旗下首个通用世界模型GWM-1。
12/13/2025 10:41:00 PM
鹭羽
腾讯胡文博:引领 3D 视频世界模型新趋势丨GAIR 2025
今年大会,将开设三个主题论坛,聚焦大模型、算力变革、世界模型等多个议题,描绘 AI 最前沿的探索群像,折射学界与产业界共建的智能未来。 腾讯 ARC 实验室高级研究员胡文博也将莅临 12 月 13 日《世界模型》论坛,带来《Towards 3D-aware Video World Models 》(《迈向三维感知的视频世界模型》)的主题分享。 过去一年多,Sora为代表的视频生成模型,成为继大语言模型(LLM)后新的学术热点。
12/3/2025 4:10:00 PM
聪聪
Meta首席AI科学家杨立昆拟离职创业:押注“世界模型”挑战LLM路线
Meta首席AI科学家杨立昆(Yann LeCun)已宣布计划在未来数月离职,并筹备创立专注“世界模型”的新公司。 消息人士透露,他正在与潜在投资者接触,希望将多年研究的“目标驱动AI”架构商业化,此举被视为对Meta重金押注大语言模型(LLM)路线的公开否定。 杨立昆多次公开表示,仅靠扩参数无法让LLM实现人类级推理,“当前投入是战略错误”。
11/18/2025 12:21:44 PM
AI在线
杨立昆炮轰LLM:Meta AI战略走错了方向
Meta首席AI科学家杨立昆(Yann LeCun)在离职后的首次公开访谈中直言,大型科技公司对大型语言模型(LLM)的巨额投入是“战略错误”,无法通向真正的计算机智能。 他指出,LLM仅擅长“统计式文本补全”,缺乏对物理世界的理解、长期推理与规划能力,因此“注定无法诞生人类级智能”。 图源备注:图片由AI生成,图片授权服务商MidjourneyLeCun认为,下一代突破应来自“世界模型”(World Model)。
11/18/2025 10:41:57 AM
AI在线
上交×蚂蚁发布 DiagGym:以世界模型驱动交互式医学诊断智能体
临床诊断并非一次性的「快照」,而是一场动态交互、不断「探案」的推理过程。 然而,当下的大模型大多基于静态数据训练,难以掌握真实诊疗中充满不确定性的多轮决策轨迹。 如何让AI学会「追问」、选择检查,并一步步抽丝剥茧,迈向正确诊断?
11/11/2025 4:58:00 PM
机器之心
LeCun预言成真!790年长视频,炼出最强开源「世界模型」
2025年,「世界模型」成为了AI巨头们厮杀的战场。 谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。 甚至,网友将其称之为「游戏引擎2.0时代」。
11/3/2025 5:29:54 PM
新智元
DeepMind一篇论文终结十年之争!GPT-5推理靠世界模型
GPT-5上线后,最让人震惊的不是它能写诗画画,而是它展现出的推理能力。 网友惊呼:「感觉像是在和博士讨论问题」,媒体更是直言它的逻辑水平已经「堪比专家」。 为什么会出现这种「突然开窍」的效果?
10/31/2025 4:04:17 PM
新智元
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
Ctrl-World团队 投稿. 量子位 | 公众号 QbitAI这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。 生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型——它需要紧密跟随动作,还要足够准确以避免频繁幻觉。
10/30/2025 6:23:21 PM
衡宇
华为世界模型来了!单卡30分钟生成272㎡场景
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAIAI大house真来了。 华为联合上海交通大学、华中科技大学推出了世界模型WordGrow,可以生成1800㎡超大室内场景(19×39块),单卡30分钟就跑了272㎡。
10/28/2025 2:27:24 PM
闻乐
让VLM学会「心中有世界」:VAGEN用多轮RL把视觉智能变成「世界模型」推理机器
当今的 AI 智能体(Agent)越来越强大,尤其是像 VLM(视觉-语言模型)这样能「看懂」世界的智能体。 但研究者发现一个大问题:相比于只处理文本的 LLM 智能体,VLM 智能体在面对复杂的视觉任务时,常常表现得像一个「莽撞的执行者」,而不是一个「深思熟虑的思考者」。 它们为什么会这样?
10/25/2025 10:46:00 PM
机器之心
李飞飞发布全新世界模型,单GPU就能跑!
时令 发自 凹非寺. 量子位 | 公众号 QbitAI李飞飞的世界模型创业,最新成果来了! 刚刚,教母亲自宣布对外推出全新模型RTFM(A Real-Time Frame Model),不仅具备实时运行、持久性和3D一致性,更关键的是——.
10/17/2025 12:39:35 PM
时令
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
只让机器人或虚拟智能体「想象」,不让它们和物理世界交互,它们也能学到和世界交互的技能? 谷歌的世界模型 Dreamer 4 为这一想法提供了新的支撑。 为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。
10/2/2025 3:00:00 PM
机器之心
Code World Model (CWM):用世界模型改善代码生成的开源大语言模型
Meta发布了 Code World Model (CWM,论文:CWM: An Open-Weights LLM for Research on Code Generation with World Models),一个拥有32B参数的开源大语言模型(LLM),旨在推动基于世界模型的代码生成研究。 与传统仅从静态代码训练的模型不同,CWM在大规模 Python解释器执行轨迹 和 agent性Docker环境交互轨迹 上进行中期训练,并在可验证编码、数学和多轮软件工程环境中进行多任务强化学习(RL)。 CWM为研究者提供了探索世界建模在代码生成中通过推理和规划提升能力的强大平台。
9/28/2025 4:00:00 AM
无影寺
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典
刚刚,Meta FAIR推出了代码世界模型! CWM(Code World Model),一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造的研究模型这是全球首个将世界模型系统性引入代码生成的语言模型。 图片与现有代码大模型相比,CWM最与众不同的一点在于,它不仅能生成代码、理解语义。
9/25/2025 9:33:54 AM
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」
自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。 我们能否让 AI 做到:仅凭一张静态照片,就能 “脑补” 出整个 3D 空间,生成一段围绕主体的 360° 环绕视频? 现有的视频能否进行重新运镜,实现推、拉、摇、移等复杂的电影级镜头调度?
9/23/2025 11:25:00 AM
机器之心
李飞飞发布世界模型新成果:一个提示,生成无限3D世界
不圆 时令 发自 凹非寺. 量子位 | 公众号 QbitAI李飞飞创业公司世界模型新成果来了! 只需要一个图像或者提示,就能构建出一个可以无限探索的3D世界——【此处无法插入视频,遗憾……可到量子位公众号查看~】世界更大、风格更多样、3D几何结构更清晰,并且保持一致性、没有时间限制、没有奇怪的变形。
9/17/2025 9:58:12 AM
不圆
宇树:开源机器人世界大模型!
一觉醒来,宇树带着最新开源模型来了! 这次开源的是一个世界模型-动作架构,名叫UnifoLM-WMA-0。 它的核心之处在于拥有一个世界模型能够理解机器人和环境相互作用时的物理规律。
9/16/2025 12:21:26 PM
西风
万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?丨GAIR Live
世界模型在人工智能领域中扮演着重要角色,能够有效为智能体提供对复杂现实世界的内在表征,使其像人类一样理解世界运行的逻辑与因果关系,对自动驾驶、具身智能的突破性发展至关重要,它已成为学术界和工业界的研究热点。 圆桌主持人为清华大学智能产业研究院(AIR)助理教授、智源学者赵昊,并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。 会上主持人赵昊带头讨论世界模型,先是探讨其定义、范围,接着分析强化学习界与计算机视觉界的世界模型的不同,随后围绕视频生成、三维重建等内容,剖析通用视频生成模型向真正的世界模型的发展路径,最后关注于落地场景,聚焦于自动驾驶以及具身智能,并探讨构建其世界模型的难点和方向。
9/8/2025 5:11:00 PM
刘欣
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉