4D
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025
构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。 尽管现有方法在静态语义场重建方面已取得显著成果,但如何建模4D语言场(4D language fields)以实现动态场景中时间敏感且开放式的语言查询,仍面临诸多挑战,动态世界的语义建模对于推动许多实际应用的落地至关重要。 近日,来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat,基于动态三维高斯泼溅技术,成功重建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。
4/3/2025 10:12:30 AM
新智元
港科技最新DrivingRecon:可泛化自动驾驶4D重建新SOTA!
写在前面&笔者的个人理解从这一两年发表的论文数量可以看出,自动驾驶街景的重建与仿真备受关注,由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要,本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。 论文链接: : ,比较具有代表性的是StreetGaussian,OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架,后来又出现了使用4D NeRF学习动态信息的方法,虽然取得了不错的效果,但这些方法都有一个共性,就是需要不断的训练来进行重建,即每个场景训练一个模型,非常耗时。 因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。
12/26/2024 9:17:27 AM
自动驾驶之心
北航&清华联合发力!Stag-1:视频生成模型实现超逼真的4D驾驶场景算法!
写在前面&笔者的个人理解近年来,随着自动驾驶在感知、预测和规划方面取得的重大进步,端到端算法网络也取得了重大进展。 随着现如今这些技术的飞速进步,自动驾驶汽车的全面测试和验证也变得越来越重要。 然而,真实世界的车辆测试仍然耗时、费用昂贵,并且场景的覆盖范围也非常有限。
12/19/2024 10:20:53 AM
自动驾驶之心
全自动组装家具! 斯坦福发布IKEA Video Manuals数据集:首次实现「组装指令」真实场景4D对齐
随着人工智能技术的快速发展,让机器理解并执行复杂的空间任务成为一个重要研究方向。 在复杂的3D结构组装中,理解和执行说明书是一个多层次的挑战:从高层的任务规划,到中层的视觉对应,再到底层的动作执行,每一步都需要精确的空间理解能力。 斯坦福Vision Lab最新推出的IKEA Video Manuals数据集,首次实现了组装指令在真实场景中的4D对齐,为研究这一复杂问题提供了重要基准。
12/3/2024 10:15:08 AM
新智元
国产文生视频大模型 Vidu 将迎更新:支持生成 32 秒内容、音视频合成
感谢据“钛媒体 AGI”周四报道,生数科技、清华大学联合发布的国内首个长时长、高一致性、高动态性的视频大模型 Vidu 将于近期完成三大更新,实现“重大技术迭代”。主要更新内容如下:支持一键生成 32s 视频支持音视频合成,“视频有声音了”(Text-2-Audio)支持 4D 生成,可以从单一视频生成时空一致的 4D 内容IT之家附部分视频预览: 据介绍,Vidu 是自 Sora 发布之后,全球率先取得重大突破的视频大模型,并且仍在加速迭代提升中。据IT之家此前报道,Vidu 模型融合 Diffusion
6/7/2024 2:25:35 PM
清源
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉