3D
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大功能,为用户带来逼真的虚拟交互体验。 它是如何实现的呢? 本文将为您揭秘 TaoAvatar 背后的黑科技!
6/25/2025 9:11:16 AM
CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM
突破 3D 环境生成瓶颈,EmbodiedGen 助力智能机器人研究
在当前身体现智能(Embodied AI)的发展过程中,创建真实且精确缩放的3D 环境至关重要。 然而,现有的方法仍主要依赖于人工设计的3D 图形,这不仅成本高昂,而且缺乏真实感,限制了其扩展性和通用性。 为了在物理环境中实现通用智能,必须进行真实的模拟、强化学习以及多样化的3D 资产生成。
6/23/2025 10:00:56 AM
AI在线
3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis, NVS)正扮演着越来越关键的角色。 近年来,3D高斯泼溅(3D Gaussian Splatting, 3DGS)技术横空出世,凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域的一大突破。 然而,传统3DGS对耗时的「逐场景优化」的依赖,严重限制了其在实际应用中的部署。
6/18/2025 8:54:48 AM
视频扩散模型新突破!清华腾讯联合实现高保真3D生成,告别多视图依赖
三维场景是构建世界模型、具身智能等前沿科技的关键环节之一。 尽管Hunyuan3D、Rodin-v1.5、Tripo-v2.5等生成模型已在三维生成领域取得显著进展,但其往往聚焦在物体级别内容生成,难以实现复杂三维场景的构建。 清华大学联合腾讯提出Scene Splatter——从一张图像出发,基于自定义的相机轨迹探索三维场景。
6/13/2025 2:13:26 PM
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。 本项目为作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。
6/12/2025 2:29:14 PM
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
在构建通用人工智能、世界模型、具身智能等关键技术的竞赛中,一个能力正变得愈发核心 —— 高质量的 3D 场景生成。 过去三年,该领域的研究呈指数级增长,每年论文数量几乎翻倍,反映出其在多模态理解、机器人、自动驾驶乃至虚拟现实系统中的关键地位。 注:图中 2025 年的数据截至 4 月底来自南洋理工大学 S-Lab 的研究者们全面调研了该领域最前沿的研究方法,发表了综述《3D Scene Generation: A Survey》,对 300 篇代表性论文进行了系统归纳,将现有方法划分为四大类:程序化方法、基于神经网络的 3D 表示生成、图像驱动生成,以及视频驱动生成。
6/11/2025 9:19:22 AM
影视级3D生成新王:Direct3D-S2全面开源!8块GPU超越闭源登顶HF
HuggingFace是全球最大的开源大模型社区,汇集了来自世界各地的上百个开源大模型。 其趋势榜(HuggingFace Trending)展示了各类开源大模型在全球开发者中的受欢迎程度,DeepSeek、Qwen等大模型就因曾登顶HuggingFace榜单而获得了全球开发者的关注与热议。 可以说,这是当前最具权威性的榜单之一。
6/9/2025 3:25:43 PM
推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品
在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis,NVS)正扮演着越来越关键的角色。 3D高斯泼溅(3D Gaussian Splatting,3DGS)凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅(Feed-Forward 3D Gaussian Splatting,3DGS)模型,虽然在实时渲染和高效生成3D场景方面取得了显著进展,但仍存在一些关键缺陷。
6/6/2025 9:07:00 AM
ICLR2025 | MIT何恺明团队提出TetSphere:拉格朗日体积网格精准还原高质量3D形状!
一眼概览TetSphere Splatting提出了一种基于四面体球体(TetSpheres)的拉格朗日表示方法,可生成高质量3D网格,兼具高几何保真度和结构完整性,在多视图重建和图像/文本到3D生成任务中均表现出色。 核心问题当前主流3D建模方法(如基于点云或神经隐式表示)难以同时兼顾高质量网格结构与几何表达能力,尤其在处理复杂形状时,常出现非流形、退化三角面等问题。 论文关注的核心问题是:如何以结构合理、几何一致的方式重建高质量3D网格,同时保持高效计算和良好可扩展性。
5/28/2025 12:00:00 AM
萍哥学AI
谷歌Beam发布!2D视频秒变3D沉浸式体验,实时翻译+真实眼神交流
Google I/O大会上,Google正式推出了其革命性的3D视频通信平台——Google Beam。 这一平台以人工智能为核心,将传统的2D视频通话升级为身临其境的3D体验,旨在让远程沟通如同面对面般真实自然。 AIbase为您带来这一前沿科技的最新资讯,解析其技术亮点与未来潜力。
5/23/2025 4:00:55 PM
AI在线
一图生万物?AI“神笔马良”3DTown,单张照片变3D城市,这波操作太秀了!
最近,一项黑科技直接颠覆了我们对3D 世界构建的认知!普林斯顿大学、哥伦比亚大学和一家叫 Cyberever AI 的公司,联手推出了一套名叫3DTown 的框架。 听名字就知道,它就是来帮你搞3D 城镇的!最骚的是什么?它能仅仅凭借一张俯视图,就能帮你生成一个逼真、连贯的3D 城镇场景! 而且,它还是个免训练(training-free)的框架,这意味着你不用费劲巴拉地去收集海量3D 数据来训练它,直接就能用!
5/22/2025 6:00:45 PM
AI在线
腾讯大模型战略亮相 Turbo S 与 T1 模型全面升级
5月21日,腾讯宣布其混元大模型矩阵全面升级,标志着腾讯在人工智能领域的技术能力持续提升。 此次升级涵盖了多个方面,包括旗舰快思考模型混元TurboS、深度思考模型混元T1的升级,以及基于TurboS基座新推出的视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。 此外,腾讯还同步更新了混元图像2.0、混元3D v2.5及混元游戏视觉生成等一系列多模态模型。
5/21/2025 2:01:08 PM
AI在线
UC伯克利5千美元造全开源人形机器人,网友:这作业抄定了
仅需5000美元就能实现人形机器人3D打印? UC伯克利这次又又又整新活了! 注意看,画面中这个正在认真写名字的小家伙,就是来自UC伯克利的最新作品——人形机器人Berkeley Humanoid Lite (BHL)。
5/21/2025 8:53:00 AM
参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
新架构选择用KAN做3D感知,点云分析有了新SOTA! 来自哈尔滨工业大学(深圳)和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN,在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案,PointKAN具有更强的学习复杂几何特征的能力。
5/19/2025 2:56:45 PM
新一代开源3D模型 Step1X-3D 亮相,AI行业新动向引关注
近日,科技领域迎来了一款全新的开源3D 大模型 —— 阶跃星辰 Step1X-3D。 该模型的发布,标志着 AI 技术的又一次重大进步,尤其是在3D 建模和推理能力方面。 该模型不仅开源,且针对开发者提供了多种实用的功能,极大地促进了创新和研究的可能性。
5/15/2025 11:02:25 AM
AI在线
The Next Generation Open Source 3D Model Step1X-3D Debuts, AI Industry Trend Draws Attention
Recently, the technology sector welcomed a brand-new open-source 3D large model called "Step1X-3D." The release of this model marks another significant advancement in AI technology, particularly in 3D modeling and reasoning capabilities. Not only is this model open-source, but it also provides developers with various practical features, greatly promoting innovation and research possibilities.At the same time, Xiaomi is continuously expanding its presence in the AI field. It has recently applied for the "MiMo" trademark, which is intended to be used for inference large models.
5/15/2025 10:01:53 AM
AI在线
阶跃星辰开源 3D 大模型 Step1X-3D
阶跃星辰正式发布并开源了3D大模型Step1X-3D。 这一模型的推出,标志着阶跃星辰在多模态方向上的最新成果,继图像、视频、语音、音乐等模态后,进一步拓展了AI技术的应用边界。 Step1X-3D模型总参数量达4.8B,其中几何模块1.3B,纹理模块3.5B。
5/14/2025 5:00:52 PM
AI在线
资讯热榜
Google 不慎泄露 Gemini CLI 开源即将推出文章,现已404
从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景
AI Hacker Rises to Power! XBOW's Autonomous AI Tool Dominates HackerOne, Revealing Thousands of Vulnerabilities and Intimidating the Cybersecurity Industry
ElevenLabs隆重推出AI语音助理11ai:语音优先并支持集成MCP
苹果iOS 26升级:图乐园功能焕然一新,AI 生成图像更真实!
告别代码恐惧症!豆包推出可视化AI编程,拖拽即可创建网页应用
细节控!即梦灰测图片3.1模型 电影感增强,风格化艺术感更强
OpenAI搜索连接器重磅上线!解锁ChatGPT全新工作效率神器
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
代码
Anthropic
算法
英伟达
Stable Diffusion
芯片
训练
开发者
智能体
生成式
蛋白质
腾讯
苹果
神经网络
3D
研究
生成
Claude
机器学习
计算
Sora
LLM
AI设计
AI for Science
AI视频
GPU
人形机器人
华为
搜索
百度
AI新词
xAI
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
Transformer
工具
视觉
大型语言模型
RAG
神器推荐
模态
具身智能
文本
Copilot
LLaMA
算力
驾驶
API
视频生成