3D

李飞飞押注的「世界模型」，中国自研Matrix-3D已抢先实现了？

一花一世界，一叶一菩提。千百年来，人类只能凭想象勾勒图画之外的世界，梦境与现实之间始终隔着一层不可触及的纱幕。而今天，当AI的力量被无限延伸，这层纱幕终于被揭开——Matrix-3D，一个真正从「一图生万境」的世界模型！

8/13/2025 9:16:00 AM

刚刚，谷歌摊牌：Genie 3让你1秒「进入」名画，人人可造交互世界！

谷歌摊牌了，彻底不装了！他们前几天刚刚发布的Genie 3世界模型，正在疯狂展示AI的超能力。它不只是能从文本中生成交互式的AI空间世界，还能操控图像和视频。

8/11/2025 9:21:00 AM

腾讯发布混元3D世界模型1.0：首个支持物理仿真的开源世界生成系统

首个支持物理仿真的开源3D世界生成模型来了！一句话、一张图就能生成完整3D世界，可编辑、可仿真。在2025年世界人工智能大会（WAIC）上，腾讯正式发布混元3D世界模型1.0——首个开源且兼容传统CG管线的可漫游世界生成模型。

7/31/2025 3:27:20 PM

时令

谢赛宁团队新作：不用提示词精准实现3D画面控制

曾几何时，用文字生成图像已经变得像用笔作画一样稀松平常。但你有没有想过拖动方向键来控制画面？像这样，拖动方向键（或用鼠标拖动滑块）让画面里的物体左右移动：还能旋转角度：缩放大小：这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架，通过结合图形工具 (Blender) 与扩散模型，让视觉合成不再仅仅依赖文本提示，实现了精准的画面控制与灵活操作。

7/4/2025 8:52:00 AM

如何做到在手机上实时跑3D真人数字人？MNN-TaoAvatar开源了！

TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术，这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能，为用户带来逼真的虚拟交互体验。它是如何实现的呢？本文将为您揭秘 TaoAvatar 背后的黑科技！

6/25/2025 9:11:16 AM

CVPR 2025 Award Candidate | 英伟达等Difix3D+：用单步扩散模型修复 3D 重建伪影

在 3D 重建领域，无论是 NeRF 还是最新的 3D Gaussian Splatting（3DGS），在生成逼真新视角时仍面临一个核心难题：视角一旦偏离训练相机位置，图像就容易出现模糊、鬼影、几何错乱等伪影，严重影响实际应用。为了解决这个问题，来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ，通过单步扩散模型对 3D 渲染结果进行 “图像修复”，显著提升新视角图像的质量和一致性。该工作已被 CVPR 2025 接收，并入选 Best Paper Award 候选。

6/24/2025 8:40:00 AM

突破 3D 环境生成瓶颈，EmbodiedGen 助力智能机器人研究

在当前身体现智能（Embodied AI）的发展过程中，创建真实且精确缩放的3D 环境至关重要。然而，现有的方法仍主要依赖于人工设计的3D 图形，这不仅成本高昂，而且缺乏真实感，限制了其扩展性和通用性。为了在物理环境中实现通用智能，必须进行真实的模拟、强化学习以及多样化的3D 资产生成。

6/23/2025 10:00:56 AM

AI在线

3D高斯泼溅，可输入视图量高达500！推理速度提升3倍，内存少80%

在增强现实（AR）和虚拟现实（VR）等前沿应用领域，新视角合成（Novel View Synthesis, NVS）正扮演着越来越关键的角色。近年来，3D高斯泼溅（3D Gaussian Splatting, 3DGS）技术横空出世，凭借其革命性的实时渲染能力和卓越的视觉质量，迅速成为NVS领域的一大突破。然而，传统3DGS对耗时的「逐场景优化」的依赖，严重限制了其在实际应用中的部署。

6/18/2025 8:54:48 AM

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展，但其往往聚焦在物体级别内容生成，难以实现复杂三维场景的构建。清华大学联合腾讯提出Scene Splatter——从一张图像出发，基于自定义的相机轨迹探索三维场景。

6/13/2025 2:13:26 PM

2D图像作中介，零训练实现3D场景生成SOTA：英伟达&康奈尔提出文本驱动新流程

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生，导师为 Abe Davis 教授和 Noah Snavely 教授，研究方向专注于生成式 AI 与多模态大模型。本项目为作者在英伟达实习期间完成的工作。想象一下，你是一位游戏设计师，正在为一个奇幻 RPG 游戏搭建场景。

6/12/2025 2:29:14 PM

一个md文件收获超400 star，这份综述分四大范式全面解析了3D场景生成

在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中，一个能力正变得愈发核心 —— 高质量的 3D 场景生成。过去三年，该领域的研究呈指数级增长，每年论文数量几乎翻倍，反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。注：图中 2025 年的数据截至 4 月底来自南洋理工大学 S-Lab 的研究者们全面调研了该领域最前沿的研究方法，发表了综述《3D Scene Generation: A Survey》，对 300 篇代表性论文进行了系统归纳，将现有方法划分为四大类：程序化方法、基于神经网络的 3D 表示生成、图像驱动生成，以及视频驱动生成。

6/11/2025 9:19:22 AM

影视级3D生成新王：Direct3D-S2全面开源！8块GPU超越闭源登顶HF

HuggingFace是全球最大的开源大模型社区，汇集了来自世界各地的上百个开源大模型。其趋势榜（HuggingFace Trending）展示了各类开源大模型在全球开发者中的受欢迎程度，DeepSeek、Qwen等大模型就因曾登顶HuggingFace榜单而获得了全球开发者的关注与热议。可以说，这是当前最具权威性的榜单之一。

6/9/2025 3:25:43 PM

推理时间减少70%！前馈3DGS「压缩神器」来了，浙大Monash联合出品

在增强现实（AR）和虚拟现实（VR）等前沿应用领域，新视角合成（Novel View Synthesis，NVS）正扮演着越来越关键的角色。 3D高斯泼溅（3D Gaussian Splatting，3DGS）凭借其革命性的实时渲染能力和卓越的视觉质量，迅速成为NVS领域备受关注的技术方案。现有的前馈3D高斯泼溅（Feed-Forward 3D Gaussian Splatting，3DGS）模型，虽然在实时渲染和高效生成3D场景方面取得了显著进展，但仍存在一些关键缺陷。

6/6/2025 9:07:00 AM

ICLR2025 | MIT何恺明团队提出TetSphere：拉格朗日体积网格精准还原高质量3D形状！

一眼概览TetSphere Splatting提出了一种基于四面体球体（TetSpheres）的拉格朗日表示方法，可生成高质量3D网格，兼具高几何保真度和结构完整性，在多视图重建和图像/文本到3D生成任务中均表现出色。核心问题当前主流3D建模方法（如基于点云或神经隐式表示）难以同时兼顾高质量网格结构与几何表达能力，尤其在处理复杂形状时，常出现非流形、退化三角面等问题。论文关注的核心问题是：如何以结构合理、几何一致的方式重建高质量3D网格，同时保持高效计算和良好可扩展性。

5/28/2025 12:00:00 AM

萍哥学AI

谷歌Beam发布！2D视频秒变3D沉浸式体验，实时翻译+真实眼神交流

Google I/O大会上，Google正式推出了其革命性的3D视频通信平台——Google Beam。这一平台以人工智能为核心，将传统的2D视频通话升级为身临其境的3D体验，旨在让远程沟通如同面对面般真实自然。 AIbase为您带来这一前沿科技的最新资讯，解析其技术亮点与未来潜力。

5/23/2025 4:00:55 PM

AI在线

一图生万物？AI“神笔马良”3DTown，单张照片变3D城市，这波操作太秀了！

最近，一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司，联手推出了一套名叫3DTown 的框架。听名字就知道，它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图，就能帮你生成一个逼真、连贯的3D 城镇场景! 而且，它还是个免训练（training-free）的框架，这意味着你不用费劲巴拉地去收集海量3D 数据来训练它，直接就能用!

5/22/2025 6:00:45 PM

AI在线

腾讯大模型战略亮相 Turbo S 与 T1 模型全面升级

5月21日，腾讯宣布其混元大模型矩阵全面升级，标志着腾讯在人工智能领域的技术能力持续提升。此次升级涵盖了多个方面，包括旗舰快思考模型混元TurboS、深度思考模型混元T1的升级，以及基于TurboS基座新推出的视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。此外，腾讯还同步更新了混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型。

5/21/2025 2:01:08 PM

AI在线

UC伯克利5千美元造全开源人形机器人，网友：这作业抄定了

仅需5000美元就能实现人形机器人3D打印？ UC伯克利这次又又又整新活了！注意看，画面中这个正在认真写名字的小家伙，就是来自UC伯克利的最新作品——人形机器人Berkeley Humanoid Lite （BHL）。

5/21/2025 8:53:00 AM

资讯热榜

GPT-5发布即翻车！奥特曼深夜承认：图表出错，模型变笨。用户只想用回GPT-4o 2025 年多款 Deep Research 智能体框架全面对比 OpenAI夺金IOI，但输给3位中国高中生 “还我GPT-4o”！奥特曼强推GPT-5惹怒网友，紧急公关来了和GPT聊了21天，我差点成为陶哲轩 GPT-5问题太多，奥特曼带团回应一切，图表弄错是因「太累了」基于 DiT 大模型与字体级分割的视频字幕无痕擦除方案，助力短剧出海免费使用GPT-5！一手实测案例，代码能力强的离谱

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体论文英伟达 Anthropic 代码算法训练 Stable Diffusion 芯片蛋白质开发者腾讯 LLM 生成式苹果 Claude Agent AI新词神经网络 3D AI for Science 机器学习研究生成 xAI 人形机器人 AI视频计算 Sora GPU AI设计百度华为工具大语言模型搜索具身智能场景 RAG 字节跳动大型语言模型预测深度学习伟达视觉 Transformer 视频生成 AGI 神器推荐亚马逊架构 Copilot DeepMind 应用安全