3D
CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene
论文有两位共同一作。 汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。 刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。
4/9/2025 1:11:27 PM
机器之心
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型
在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位
腾讯把AI生3D玩明白了,一口气开源两款模型,消费级显卡可跑!明天还有重磅开源!
出品 | 51CTO技术栈(微信号:blog51cto)Hunyuan3D 2.0上线后就好评不断。 该家族又在今天的开源日中迎来了重磅的新成员——Hunyuan 3D-2mini以及Hunyuan 3D-2mv!今天腾讯的演示中,感觉他们真的把AI生3D玩明白了,真的能用AI重构游戏行业。 不愧是腾讯,手握众多王牌游戏就是有经验啊!
3/18/2025 2:17:57 PM
0行代码打造3D游戏,氛围编码席卷全网!开发30分爆赚28万
用「vide coding」制作3D游戏正在成为一股新风潮。 从大V到普通网友,越来越多人加入到了这场狂欢之中。 资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。
3/17/2025 9:27:45 AM
新智元
CVPR2025最新!探索3D场景推理问答新高度:双视觉感知网络
0.背景信息在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。 相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。 然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
3/14/2025 10:26:58 AM
Jingzhou Luo等
MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!
一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
3/6/2025 12:15:00 AM
萍哥学AI
全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!
在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。
3/5/2025 1:57:00 PM
AI在线
颠覆城市建模!AI生成3D城市模型GaussianCity,生成速度提升 60 倍!
南洋理工大学研究团第一项名为“GaussianCity”的超大规模3D城市模型生成技术引发了不少关注,这款由研究团队开发的全新框架,不仅在生成速度上实现了惊人的60倍提升,还突破了传统方法在规模上的限制,支持无边界的3D城市生成。 这一技术成果已被CVPR2025(计算机视觉与模式识别顶级会议)接收,成为虚拟现实、自动驾驶和数字孪生领域的重大突破。 据了解,GaussianCity在生成无人机视角和街道视角的3D城市模型方面达到了最先进的水平。
3/4/2025 11:37:00 AM
AI在线
Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025
理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢? 光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。 该论文已被ICRA 2025接收。
2/24/2025 2:22:00 PM
量子位
魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束
在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。 但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。 为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。
2/24/2025 10:40:00 AM
AIGC Studio
剧本自动生成3D动画!北航中大等提出新方法,破解多人交互难题 | ICLR 2025
设定一个3D场景,你便可以用文字编织你的剧情。 一句话,就能让两个人激烈争吵。 吵完之后,又温馨共舞起来~想怎么排就怎么排,就像影视拍摄或舞台剧的编排一样,只需在剧本中设定角色的行动、互动和环境要素,就能自动生成符合逻辑的3D角色动画,让你的剧情真正“动”起来。
2/21/2025 9:35:00 AM
量子位
英伟达黑科技登场!RTX神经纹理压缩,显存用量狂减96%
在显卡技术不断迭代的当下,NVIDIA再次凭借其前沿创新,吸引了全球科技爱好者的目光。 RTX神经纹理压缩(NTC)技术在beta测试演示中的表现,堪称惊艳。 它成功地将3D应用中的内存纹理占用大幅降低,最高降幅可达96%,为图形处理领域带来了全新的变革可能。
2/14/2025 9:30:00 AM
新智元
Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!
一眼概览SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。 核心问题背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。 此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。
2/14/2025 9:02:19 AM
萍哥学AI
StochSync:可在任意空间中生成高质量360°全景图和3D网格纹理
本文经AIGC Studio公众号授权转载,转载请联系出处。 StochSync方法可以用于在任意空间中生成图像,尤其是360°全景图和3D网格纹理。 该方法利用了预训练的图像扩散模型,以实现zero-shot生成,消除了对新数据收集和单独训练生成模型的需求。
2/8/2025 9:23:08 AM
AIGC Studio
Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征
Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。
2/5/2025 11:00:00 AM
AIGC Studio
单张照片生成3D头部模型!Adobe提出FaceLift,从单一人脸图像重建360度头部模型
本文经AIGC Studio公众号授权转载,转载请联系出处。 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。 FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。
1/27/2025 9:32:23 AM
量子位
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
LLM
生成式
苹果
Claude
Agent
AI新词
神经网络
3D
AI for Science
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
预测
深度学习
伟达
视觉
Transformer
视频生成
AGI
神器推荐
亚马逊
架构
Copilot
DeepMind
应用
安全