自动驾驶

当人工智能遇上市政债券市场：聊聊算法交易与AI预测

算法交易时至今日，“算法交易”一词已经被广泛使用。但其真实含义却往往众说纷纭。没关系，下面咱们就来捋捋这个概念的具体细节。

1/3/2025 8:00:00 AM

世界模型再进化！DrivingWorld：通过视频GPT构建自动驾驶世界模型（港科技&地平线）

写在前面 & 笔者的个人理解最近自回归（AR）生成模型的成功，如自然语言处理中的GPT系列，促使人们努力在视觉任务中复制这一成功。一些工作试图通过构建能够生成逼真的未来视频序列和预测自车状态的基于视频的世界模型，将这种方法扩展到自动驾驶。然而，先前的工作往往产生不令人满意的结果，因为经典的GPT框架旨在处理1D上下文信息，如文本，并且缺乏对视频生成所必需的空间和时间动态进行建模的固有能力。

1/2/2025 9:12:34 AM Xiaotao Hu等

更真实的协同感知！EI-Drive：协同感知和融合通信特征的智驾平台

本文对EI-Drive: A Platform for Cooperative Perception with Realistic Communication Models进行介绍，EI-Drive将协同感知和通信延迟与误差融合，打造了一个更贴近车间通信（V2V Communication）真实部署环境的自动驾驶平台，为抗通信干扰的相关自动驾驶算法提供了测试和训练的平台。项目详情：：：，协同感知（Cooperative perception）得到了越来越多的关注，它使多个车辆或RSU能够共享传感器数据，从而增强其对环境的感知。这种方法对克服传感器遮挡、视野受限以及噪声等限制尤为重要，这些限制可能导致障碍物的遗漏或决策上的致命错误。

12/31/2024 9:30:00 AM 自动驾驶之心

中科院最新DrivingGPT：利用多模态自回归方法统一驾驶世界模型和规划双任务！

写在前面&笔者的个人理解目前，驾驶世界模型已获得了来自工业界和学术界的广泛关注，因为基于模型的搜索和规划被广泛认为是实现人类级智能的重要途径。这些模型有多种用途，包括训练数据增强、稀有场景生成。大多数当前世界模型都是通过微调现有的扩散模型来开发的，利用视频生成基础模型的泛化能力。

12/31/2024 9:10:00 AM 自动驾驶之心

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

论文信息论文题目：LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位：清华大学, 厦门大学，滴滴出行, 香港中文大学-深圳论文地址：：。然而，由于点云不像图像那样具有丰富的语义信息，在点云中这个识别异常点是一项极具挑战性的任务。本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响：1) 提出了一种新的学习范式，使模型能够学习更鲁棒的点云表征，增强点与点之间的辨别性；2) 借助额外的数据源，ShapeNet，提出了一套可以生成多样且真实伪异常的方法。

12/27/2024 10:00:00 AM 自动驾驶之心

港科技最新DrivingRecon：可泛化自动驾驶4D重建新SOTA！

写在前面&笔者的个人理解从这一两年发表的论文数量可以看出，自动驾驶街景的重建与仿真备受关注，由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要，本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。论文链接: : ，比较具有代表性的是StreetGaussian，OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架，后来又出现了使用4D NeRF学习动态信息的方法，虽然取得了不错的效果，但这些方法都有一个共性，就是需要不断的训练来进行重建，即每个场景训练一个模型，非常耗时。因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。

12/26/2024 9:17:27 AM 自动驾驶之心

了解世界还是预测未来？一场关于自动驾驶世界模型的祛魅（清华最新综述）！

12/25/2024 9:50:00 AM 自动驾驶之心

Occ预测最新SOTA！清华团队提出基于高斯世界模型的GaussianWorld算法~

写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述，这对于开发安全且强大的自动驾驶系统非常重要。

12/24/2024 10:30:00 AM 自动驾驶之心

3D世界的新视角：以Object为中心的占用补全技术（港中文&小米）

写在前面 && 笔者理解传统的感知主要采用3D对象边界框（bboxes）来表征感知，但是这样的表示其实是有局限性的，它无法捕捉物体形状的精确细节，特别是对于具有不规则几何形状的物体，因为它本质上是一个包含物体的长方体。比如下图1(a)所示，起重机被一个3D边界框完美包围。但是，其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。

12/24/2024 9:56:51 AM 自动驾驶之心

六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

写在前面 & 笔者的个人理解近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。

12/20/2024 9:39:05 AM Zhijian Huang等

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

写在前面&笔者的个人理解近年来，随着自动驾驶在感知、预测和规划方面取得的重大进步，端到端算法网络也取得了重大进展。随着现如今这些技术的飞速进步，自动驾驶汽车的全面测试和验证也变得越来越重要。然而，真实世界的车辆测试仍然耗时、费用昂贵，并且场景的覆盖范围也非常有限。

12/19/2024 10:20:53 AM 自动驾驶之心

万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！

写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。大多数现有方法采用密集表示（如鸟瞰图）或稀疏表示（如实例框）进行决策，这会在全面性和效率之间进行权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛而稀疏地描述场景。

12/18/2024 10:30:00 AM Wenzhao Zheng等

Omni-Scene：Gaussian统一表征下的自动驾驶多模态生成新SOTA！

写在前面 & 笔者的个人理解西湖大学和浙大的工作，利用3DGS的统一表征，结合扩散模型打通自动驾驶场景的多模态生成。近期生成重建的算法越来越多，这说明单重建或者单生成可能都没有办法很好的cover闭环仿真，所以现在的工作尝试两者结合，这块应该也是后面闭环仿真落地的方向。先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。

12/18/2024 9:34:13 AM Dongxu Wei等

谷歌 CEO 皮查伊：特斯拉和 Waymo 是自动驾驶领域前两名

在纽约时报 DealBook 峰会上，谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）高度评价特斯拉在自动驾驶领域的领先地位，并将其与 Waymo 并列为行业翘楚。

12/16/2024 2:59:26 PM 远洋

闭环仿真日新月异的今天，如何紧跟节奏？自动驾驶3DGS最新综述！

写在前面NeRF技术兴起于2020年，自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝，新的算法和改进层出不穷，其视觉质量逐步提高突破。并且在该技术的支持下，许多领域都取得了突破性的成果。

12/13/2024 10:20:00 AM 自动驾驶之心

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

本文是对 UniScene: Unified Occupancy-centric Driving Scene Generation的解读，UniScene 在Video、LiDAR 和Occupancy生成方面超过了所有之前的SOTA方法。此外，UniScene生成的数据可显着增强下游任务，包括Occupancy预测、3D检测和BEV分割。论文链接：：、可控、带注释的训练数据对于自动驾驶至关重要。

12/12/2024 10:20:00 AM 自动驾驶之心

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

写在前面大家好，很荣幸能受到自动驾驶之心的邀请来为大家分享我们的一篇关于单目车道线检测的综述。与papaer里展现的顺序和内容可能有所不同，在这里笔者想更多地讲一讲本文的成文过程以及各类方法的发展史，因此对于各方法的详细介绍读者可以参考本文原文，这里不会花费过多笔墨来重述。关于本文原文中提到的方法，以及更多未提到的方法的论文和代码均可在笔者构建的GitHub仓库里找到，笔者后续也会不断更新，欢迎大家关注，也欢迎业内同仁指正，共同探讨。

12/11/2024 10:55:05 AM 自动驾驶之心

无惧大平移！MMLab最新FreeSim：渐进迭代拿下3m平移新视角

12/10/2024 10:35:00 AM Lue Fan等

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉