3D
李飞飞全新「世界模型」问世!单张H100实时生成3D永恒世界
就在刚刚,李飞飞World Labs重磅发布全新实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型)! 这是一款效率极高的,在大型视频数据上进行端到端训练的自回归扩散Transformer模型。 仅需一块H100 GPU,RTFM就能在你与之交互时,实时渲染出持久且3D一致的世界,无论是真实场景还是想象空间。
10/17/2025 9:53:23 AM
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
全景图具有完整的视场 (360°×180°),比透视图提供更完整的视觉描述。 得益于此特性,全景深度估计在3D视觉领域正日益受到关注。 然而,由于全景数据的稀缺,以往的方法通常局限于域内设置,导致零样本泛化能力较差。
10/14/2025 1:56:59 PM
斯坦福李飞飞团队,带你一句话进入无限3D世界
斯坦福大学的李飞飞教授,又带着她的新成果来“砸场子”了。 只用一张图,甚至一句话,就能直接生成一个可以让你在里面“逛街”的3D世界。 不是图片,也不是视频,而是一个活生生的、可以自由探索、永久存在的3D虚拟空间。
9/19/2025 9:06:00 AM
刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
就在今天,斯坦福大学教授李飞飞的创业公司 World Labs 发布了新成果 —— 限量开放的测试预览版空间智能模型 Marble。 「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼! 」我们先看下面一段视频 demo: 李飞飞对此表示,「这是一个使用我们的 3D 世界生成模型创建的极其庞大的世界,它令我惊叹不已!
9/17/2025 9:18:56 AM
首个3D动作游戏专用VLA模型,打黑神话&只狼超越人类玩家 | ICCV 2025
3B多模态大模型在动作角色扮演游戏的战斗任务中,成功率超越GPT-4o和人类玩家,淘天集团未来生活实验室团队提出了CombatVLA,已被ICCV 2025接收。 在复杂的三维环境中实现实时决策仍面临重大挑战,要求模型能在秒级时间尺度做出响应,具备高分辨率感知能力,并能够在动态条件下进行战术推理。 如下图所示,团队给出了CombatVLA推理得到的AoT解释、解析成Python代码的动作指令,以及执行这些动作后的帧序列。
8/19/2025 4:08:20 PM
李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?
一花一世界,一叶一菩提。 千百年来,人类只能凭想象勾勒图画之外的世界,梦境与现实之间始终隔着一层不可触及的纱幕。 而今天,当AI的力量被无限延伸,这层纱幕终于被揭开——Matrix-3D,一个真正从「一图生万境」的世界模型!
8/13/2025 9:16:00 AM
刚刚,谷歌摊牌:Genie 3让你1秒「进入」名画,人人可造交互世界!
谷歌摊牌了,彻底不装了! 他们前几天刚刚发布的Genie 3世界模型,正在疯狂展示AI的超能力。 它不只是能从文本中生成交互式的AI空间世界,还能操控图像和视频。
8/11/2025 9:21:00 AM
腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统
首个支持物理仿真的开源3D世界生成模型来了! 一句话、一张图就能生成完整3D世界,可编辑、可仿真。 在2025年世界人工智能大会(WAIC)上,腾讯正式发布混元3D世界模型1.0——首个开源且兼容传统CG管线的可漫游世界生成模型。
7/31/2025 3:27:20 PM
时令
谢赛宁团队新作:不用提示词精准实现3D画面控制
曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/4/2025 8:52:00 AM
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。 它是如何实现的呢? 本文将为您揭秘 TaoAvatar 背后的黑科技!
6/25/2025 9:11:16 AM
CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM
突破 3D 环境生成瓶颈,EmbodiedGen 助力智能机器人研究
在当前身体现智能(Embodied AI)的发展过程中,创建真实且精确缩放的3D 环境至关重要。 然而,现有的方法仍主要依赖于人工设计的3D 图形,这不仅成本高昂,而且缺乏真实感,限制了其扩展性和通用性。 为了在物理环境中实现通用智能,必须进行真实的模拟、强化学习以及多样化的3D 资产生成。
6/23/2025 10:00:56 AM
AI在线
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。 尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构建。 清华大学联合腾讯提出Scene Splatter——从一张图像出发,基于自定义的相机轨迹探索三维场景。
6/13/2025 2:13:26 PM
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。 本项目为作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。
6/12/2025 2:29:14 PM
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成。 过去三年,该领域的研究呈指数级增长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 注:图中 2025 年的数据截至 4 月底来自南洋理工大学 S-Lab 的研究者们全面调研了该领域最前沿的研究方法,发表了综述《3D Scene Generation: A Survey》,对 300 篇代表性论文进行了系统归纳,将现有方法划分为四大类:程序化方法、基于神经网络的 3D 表示生成、图像驱动生成,以及视频驱动生成。
6/11/2025 9:19:22 AM
影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF
HuggingFace是全球最大的开源大模型社区,汇集了来自世界各地的上百个开源大模型。 其趋势榜(HuggingFace Trending)展示了各类开源大模型在全球开发者中的受欢迎程度,DeepSeek、Qwen等大模型就因曾登顶HuggingFace榜单而获得了全球开发者的关注与热议。 可以说,这是当前最具权威性的榜单之一。
6/9/2025 3:25:43 PM
推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis,NVS)正扮演着越来越关键的角色。 3D高斯泼溅(3D Gaussian Splatting,3DGS)凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅(Feed-Forward 3D Gaussian Splatting,3DGS)模型,虽然在实时渲染和高效生成3D场景方面取得了显著进展,但仍存在一些关键缺陷。
6/6/2025 9:07:00 AM
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
大模型降本增效,稀疏注意力机制的魔力在哪?
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
AI圈重磅发布!九大章节深度解读313页的State of AI 2025报告
算力帝国再扩张!OpenAI豪掷3500-5000亿美元购博通10吉瓦算力
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
GPU
具身智能
RAG
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
Transformer
伟达
编程
AI模型
特斯拉
生成式AI
神器推荐