4D

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验，洞察到一个转变正在发生——软件正在再次经历变革。

Andrej 结合他在斯坦福、OpenAI 和特斯拉的工作经验，洞察到一个转变正在发生——软件正在再次经历变革。

今天凌晨4点30，微软首席执行官SatyaNadella分享了，微软在量子计算的重大技术突破成果4D拓扑量子纠错码。与2D相比，4D拓扑量子纠错码在编码效率、纠错能力、逻辑操作都非常出色，并且每个逻辑量子比特只需要极少的物理量子比特，可以一次性检查错误，并将错误率降低1000倍。同时，这项全新的量子计算成果将应用在微软的Azure Quantum量子计算平台中，加速科研、医疗的研发效率网友表示，这标志着一项重大进展，量子纠错长期以来一直是实现稳定、可扩展量子计算的主要瓶颈。

6/20/2025 9:23:53 AM

还在玩普通VR？HoloTime让你一键穿越到4D全景世界！

还在玩普通VR？HoloTime让你一键穿越到4D全景世界！

最近，在 VR 和 AR 技术领域，一项新研究成果引发了广泛关注，它就是 HoloTime。这一创新框架致力于解决当前4D 内容生成的难题，有望重塑我们在虚拟世界中的交互体验。今天，AIbase就来深入探究一下，HoloTime 究竟有什么神奇之处。

5/8/2025 11:00:54 AM AI在线

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。尽管现有方法在静态语义场重建方面已取得显著成果，但如何建模4D语言场（4D language fields）以实现动态场景中时间敏感且开放式的语言查询，仍面临诸多挑战，动态世界的语义建模对于推动许多实际应用的落地至关重要。近日，来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat，基于动态三维高斯泼溅技术，成功重建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。

4/3/2025 10:12:30 AM 新智元

港科技最新DrivingRecon：可泛化自动驾驶4D重建新SOTA！

港科技最新DrivingRecon：可泛化自动驾驶4D重建新SOTA！

写在前面&笔者的个人理解从这一两年发表的论文数量可以看出，自动驾驶街景的重建与仿真备受关注，由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要，本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。论文链接: : ，比较具有代表性的是StreetGaussian，OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架，后来又出现了使用4D NeRF学习动态信息的方法，虽然取得了不错的效果，但这些方法都有一个共性，就是需要不断的训练来进行重建，即每个场景训练一个模型，非常耗时。因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。

12/26/2024 9:17:27 AM 自动驾驶之心

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

写在前面&笔者的个人理解近年来，随着自动驾驶在感知、预测和规划方面取得的重大进步，端到端算法网络也取得了重大进展。随着现如今这些技术的飞速进步，自动驾驶汽车的全面测试和验证也变得越来越重要。然而，真实世界的车辆测试仍然耗时、费用昂贵，并且场景的覆盖范围也非常有限。

12/19/2024 10:20:53 AM 自动驾驶之心

全自动组装家具！斯坦福发布IKEA Video Manuals数据集：首次实现「组装指令」真实场景4D对齐

全自动组装家具！斯坦福发布IKEA Video Manuals数据集：首次实现「组装指令」真实场景4D对齐

随着人工智能技术的快速发展，让机器理解并执行复杂的空间任务成为一个重要研究方向。在复杂的3D结构组装中，理解和执行说明书是一个多层次的挑战：从高层的任务规划，到中层的视觉对应，再到底层的动作执行，每一步都需要精确的空间理解能力。斯坦福Vision Lab最新推出的IKEA Video Manuals数据集，首次实现了组装指令在真实场景中的4D对齐，为研究这一复杂问题提供了重要基准。

12/3/2024 10:15:08 AM 新智元

国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

国产文生视频大模型 Vidu 将迎更新：支持生成 32 秒内容、音视频合成

感谢据“钛媒体 AGI”周四报道，生数科技、清华大学联合发布的国内首个长时长、高一致性、高动态性的视频大模型 Vidu 将于近期完成三大更新，实现“重大技术迭代”。主要更新内容如下：支持一键生成 32s 视频支持音视频合成，“视频有声音了”（Text-2-Audio）支持 4D 生成，可以从单一视频生成时空一致的 4D 内容IT之家附部分视频预览：据介绍，Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，并且仍在加速迭代提升中。据IT之家此前报道，Vidu 模型融合 Diffusion

6/7/2024 2:25:35 PM 清源

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉