自动驾驶

一文读懂迁移学习和ASPP如何使自动驾驶汽车的目标检测更加智能

译者 | 张哲刚审校 | 重楼自动驾驶汽车是不能犯错误的，忽视一个红绿灯或一个行人都可能意味着灾难。但城市环境是动态的，在这样的环境中目标检测是一个大难题。我使用空洞空间卷积池化金字塔（ASPP）和迁移学习来优化自动驾驶汽车的目标检测，结果如何呢？

3/14/2025 8:00:00 AM 张哲刚

快慢双系统！清华&博世最新Chameleon：无需训练即可解决复杂道路拓扑（ICRA'25）

在自动驾驶技术中，车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。

3/12/2025 10:07:06 AM 自动驾驶之心

全自动驾驶真的来了！花6万4才能用！马斯克急忙上线阉割版!AI提醒驾驶员别走神，网友实测翻车:秒变移动路障；李想：在实战中分高下

出品 | 51CTO技术栈（微信号：blog51cto）千呼万唤，特斯拉FSD真的来了！特斯拉已开始在中国向车主分批次推送FSD的软件更新了，版本号2024.45.32.12，与北美版一致。不过，马斯克急急慌慌入华的FSD，槽点好像真的有点多。

2/26/2025 1:18:37 PM

港理工OccProphet：纯视觉Occ SOTA！速度提升至2.6倍，内存占用减少60%

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。 OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能，成本减少近80%！

2/26/2025 10:24:47 AM Junliang Chen等

北航&滴滴！自动驾驶汽车的运动预测：综述

论文链接：：综述。近年来，自动驾驶领域吸引了越来越多的关注。准确预测各种交通参与者的未来行为对于自动驾驶汽车（AVs）的决策是至关重要的。

2/26/2025 10:17:43 AM 自动驾驶专栏

全面超越OccWorld！Occ-LLM：Occ世界模型再度问鼎SOTA

写在前面&出发点大语言模型（LLMs）在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型（Occ-LLM），这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入，并解决与占用相关的类别不平衡问题，研究提出了运动分离变分自编码器（MS-VAE）。

2/14/2025 10:56:58 AM Tianshuo Xu等

新基准！威斯康星大学开源Ultra-AV：统一自动驾驶纵向轨迹数据集

摘要自动驾驶车辆在交通运输领域展现出巨大潜力，而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足，从而限制了有效的性能度量分析和模型开发。本研究针对这些挑战，构建了一个（Ultra-AV），用于分析自动驾驶汽车的微观纵向驾驶行为。

2/12/2025 10:30:00 AM Hang Zhou等

检测&OCC双SOTA！Doracamom实现首个LV多模态融合的统一多任务感知算法框架~

写在前面&笔者的个人理解自动驾驶技术是现代交通革命的前沿，备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件，以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础，主要侧重于 3D目标检测和语义占用预测任务。

2/12/2025 10:20:00 AM 自动驾驶之心

ICLR 2025 | Diffusion Planner: 基于扩散模型的自动驾驶规划算法，nuPlan SOTA!

本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室的发表于ICLR 2025的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构，高效处理复杂场景输入，并联合建模周车运动预测与自车规划中的多模态驾驶行为，充分发挥扩散模型在闭环规划中的潜力，解决了现有基于学习的规划方法对后处理的严重依赖问题。此外，借助扩散模型的引导机制，模型在部署阶段能够灵活适应不同的驾驶需求，提高泛化能力与实用性。

2/10/2025 11:01:00 AM 新闻助手

关于自动驾驶，尤其是端到端自动驾驶：到底有哪些可能的量产技术路线？

0.1 什么是端到端？首先定义端到端，当然有很多说法。我觉得，起码说相对于分阶段而言，规划不只是根据感知和预测的结果，而是其隐特征。

2/10/2025 10:35:00 AM 南木

利用人工智能提升航空安全

人工智能在航空安全中的整合变得越来越重要，特别是随着空中交通的增长、人为错误问题的不断出现以及对飞行员需求的增加。虽然航空旅行仍然是最安全的交通方式之一，但最近发生的悲剧事件和众多紧急事件凸显了采取更先进安全措施的必要性。上周美国一架陆军UH-60黑鹰直升机与一架美国航空公司客机在华盛顿特区里根国家机场着陆后不久在空中发生致命碰撞，震惊了航空业。

2/10/2025 10:00:33 AM AI情报室

Meta 首席 AI 科学家杨立昆最新观点：现有技术难以支撑家用机器人和自动驾驶汽车

要让AI理解并与物理世界互动，仍需重大技术突破。AI要赶上人类或动物，还需要很长的路要走。他表示，当前的AI在“操控语言”方面表现出色，但对物理世界的理解仍十分有限。

2/10/2025 8:31:27 AM 清源

轨迹预测新基准！清华开源Ultra-AV：统一自动驾驶纵向轨迹数据集

2/7/2025 10:17:55 AM Hang Zhou等

世界模型会是L3自动驾驶的唯一解吗？2025 技术展望~

三维空间占有率（3D Occupancy）预测的目的是预测三维空间中的每个体素是否被占有，如果被占有，则对应的体素将被标记。 3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息，成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。而自动驾驶世界模型（World Model）具备对真实物理世界的理解能力，基于一些历史信息/状态，能够预测未来时刻的场景变化甚至agents的状态变化。

1/10/2025 9:05:00 AM

SafeDrive：大语言模型实现知识驱动和数据驱动的风险-敏感决策

24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而，确保动态、高风险环境中的安全并管理，对安全至关重要的长尾事件仍然是一项重大挑战。

1/9/2025 9:38:25 AM 黄浴

顶刊JFR最新ROLO-SLAM开源：专为复杂地形下地面车辆的位姿漂移问题进设计

本文经3D视觉之心公众号授权转载，转载请联系出处。解决垂直方向漂移定位在自动驾驶背景下至关重要。它是安全高效导航的基础模块，使车辆能够准确地确定其在环境中的位置。

1/8/2025 9:50:00 AM 3D视觉之心

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA

写在前面 & 笔者的个人理解开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别，而无需人工标注。这对于真实世界的应用，如自动驾驶和虚拟现实等至关重要。传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战，尤其3D语义标注，非常耗费人力和物力。

1/7/2025 9:11:07 AM Yuru Wang等

InfiniCube：来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法

本文经3D视觉之心公众号授权转载，转载请联系出处。 InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models介绍：：是由英伟达主导开发的一种新型3D生成方法，用于生成无界且可控制的动态3D驾驶场景。 InfiniCube 通过结合高清地图、车辆边界框和文本描述，利用最新的3D表示和视频模型技术，实现了大规模动态场景的生成。

1/3/2025 10:00:00 AM ADFeed

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉