3D
谷歌DeepMind Genie 2亮相《60 Minutes》,革新3D交互环境生成技术
CBS著名栏目《60Minutes》深入报道了谷歌DeepMind人工智能研究实验室的最新突破,重点聚焦其全新AI模型——Genie2。 据AIbase了解,Genie2能够从单一图像或简单文本描述生成高度逼真的3D交互式环境,为机器人训练、虚拟世界构建及通用人工智能(AGI)发展开辟了新路径。 社交平台上的热烈讨论凸显了其技术革新性,相关细节已通过DeepMind官网(deepmind.google)与Hugging Face公开。
4/30/2025 10:00:55 AM
AI在线
扩散模型还原被遮挡物体,几张稀疏照片也能"脑补"完整重建交互式3D场景|CVPR'25
你是否设想过,仅凭几张随手拍摄的照片,就能重建出一个完整、细节丰富且可自由交互的3D场景? 在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。 更令人困扰的是,传统的重建算法无法解耦场景中的独立物体,重建结果无法交互,严重限制了在具身智能、元宇宙和影视游戏等领域的应用前景。
4/24/2025 9:38:00 AM
从Minecraft到虚幻5,AI首次实现3D游戏零样本迁移,跨游戏直接上手
该研究成果由北京大学和加州大学洛杉矶分校共同完成。 第一作者蔡少斐为北京大学三年级博士生,通讯作者为北京大学助理教授梁一韬。 该工作基于 MineStudio 开源项目,一个全流程简化版 Minecraft AI Agent 开发包,相关代码均已在 GitHub 上开源。
4/23/2025 9:28:58 AM
机器之心
3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机
随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。 在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴涨显存占用,甚至导致系统宕机。 这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的安全盲区。
4/23/2025 8:50:00 AM
量子位
直观即时绘制3D模型,可添加文本提示,VAST又开源了
3D生成明星玩家VAST,又又又又又开源了! Tripo Doodle(内部代号TripoSG Scribble) ,能够将简单的2D草图和文本提示(Text Prompt)实时转化为精细的3D模型。 它改进了传统3D建模学习曲线陡峭、耗时耗力的痛点,尤其是在初期“打形”阶段。
4/22/2025 9:26:00 AM
量子位
单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点
单张图直接就能生成可编辑的CAD工程文件! 来自魔芯科技、NTU等的研究人员提出图生3D新框架,名为CADCrafter。 CADCrafter和过去得到网格(Mesh)或3D高斯泼溅(3DGS)的图生3D方法大不相同。
4/15/2025 8:57:00 AM
量子位
Llama 4重测竞技场排名大跳水,网友:社区很难再信任Meta了
Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。 但是你很可能没发现它。 因为排名一下子从第2掉到了第32,要往下翻好久才能看到。
4/13/2025 5:04:23 PM
量子位
孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控
神经辐射场(NeRF)及三维高斯泼溅(3D Gaussian Splatting,3DGS)虽能构建静态数字孪生,却无法模拟真实世界的动态,不仅限制了虚拟现实和混合现实的真实感,也是智能训练与Real2Sim2Real范式突破的关键瓶颈。 如何让数字孪生世界具备真实物理规律,实现可预测、可操控的动态环境,是自动驾驶、具身智能等空间智能应用亟待解决的核心挑战。 为此,北京大学陈宝权教授研究团队提出RainyGS技术(合作者为楚梦渝、陈文拯助理教授,博士生戴启宇、倪星宇和本科生沈千帆),探索了一条通向「孪生世界动态仿真」的新路径。
4/9/2025 1:25:34 PM
新智元
CVPR 2025 HighLight|打通视频到3D的最后一公里,清华团队推出一键式视频扩散模型VideoScene
论文有两位共同一作。 汪晗阳,清华大学计算机系本科四年级,研究方向为三维视觉、生成模型,已在CVPR、ECCV、NeurIPS等会议发表论文。 刘芳甫,清华大学电子工程系直博二年级,研究方向为生成模型 (3D AIGC和Video Generation等),已在CVPR、ECCV、NeurIPS、ICLR、KDD等计算机视觉与人工智能顶会发表过多篇论文。
4/9/2025 1:11:27 PM
机器之心
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位
纯RGB输入,解决户外场景SLAM!误差降低至9.8%,港科广开源 | ICRA 2025
在自主驾驶、机器人导航、AR/VR等前沿应用中,Simultaneous Localization and Mapping (SLAM) 是核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案OpenGS-SLAM,仅凭RGB图像实现高精度定位与逼真场景重建。 论文链接:::,该方法采用了一个点图回归网络来生成帧间一致的点图,储存了来自多个标准视角的3D结构,包含了视角关系、2D到3D的对应关系和场景几何信息,使得相机位姿估计更加稳健,有效缓解了预训练深度网络的误差问题。
3/27/2025 10:54:06 AM
新智元
Stable Diffusion变身3D神器!一个LoRA将2D图像转3D模型
在Stable Diffusion当中,只需加入一个LoRA就能根据图像创建3D模型了? 港科大(广州)与趣丸科技合作推出了全新三维生成大模型——Kiss3DGen,创新性地将3D生成与成熟的图像生成模型进行了对齐。 并且与主流2D扩散模型技术(如ControlNet、Flux-Redux)兼容协同,无需额外训练即可即插即用。
3/27/2025 9:26:30 AM
量子位
腾讯把AI生3D玩明白了,一口气开源两款模型,消费级显卡可跑!明天还有重磅开源!
出品 | 51CTO技术栈(微信号:blog51cto)Hunyuan3D 2.0上线后就好评不断。 该家族又在今天的开源日中迎来了重磅的新成员——Hunyuan 3D-2mini以及Hunyuan 3D-2mv!今天腾讯的演示中,感觉他们真的把AI生3D玩明白了,真的能用AI重构游戏行业。 不愧是腾讯,手握众多王牌游戏就是有经验啊!
3/18/2025 2:17:57 PM
0行代码打造3D游戏,氛围编码席卷全网!开发30分爆赚28万
用「vide coding」制作3D游戏正在成为一股新风潮。 从大V到普通网友,越来越多人加入到了这场狂欢之中。 资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。
3/17/2025 9:27:45 AM
新智元
CVPR2025最新!探索3D场景推理问答新高度:双视觉感知网络
0.背景信息在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。 相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。 然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
3/14/2025 10:26:58 AM
Jingzhou Luo等
MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!
一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
3/6/2025 12:15:00 AM
萍哥学AI
全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!
在计算机视觉领域,多视角3D 重建一直是一项重要且具挑战性的任务,尤其是在需要精确且可扩展的表示时。 现有的主流方法,例如 DUSt3R,主要采用成对处理的方式,这种方法在进行多视角重建时需要复杂的全局对齐程序,既耗时又耗力。 为了解决这一问题,研究团队提出了 Fast3R,这是一种创新的多视角重建技术,它可以在一次前向传播中处理多达1500张图片,大幅提升了重建速度。
3/5/2025 1:57:00 PM
AI在线
颠覆城市建模!AI生成3D城市模型GaussianCity,生成速度提升 60 倍!
南洋理工大学研究团第一项名为“GaussianCity”的超大规模3D城市模型生成技术引发了不少关注,这款由研究团队开发的全新框架,不仅在生成速度上实现了惊人的60倍提升,还突破了传统方法在规模上的限制,支持无边界的3D城市生成。 这一技术成果已被CVPR2025(计算机视觉与模式识别顶级会议)接收,成为虚拟现实、自动驾驶和数字孪生领域的重大突破。 据了解,GaussianCity在生成无人机视角和街道视角的3D城市模型方面达到了最先进的水平。
3/4/2025 11:37:00 AM
AI在线
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉