端到端

Qwen重磅发布：首个端到端全模态AI模型Qwen3-Omni登场

阿里杀疯了，Qwen团队刚刚接连发布了两款重要模型：Qwen3-Omni，业界首个原生端到端全模态AI模型；以及Qwen-Image-Edit-2509，对标谷歌nano banana 图像编辑工具，根据预告，明天还有“大的”要发布。 Qwen3-Omni：真正的一体化AIQwen3-Omni的问世，旨在解决长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。它是一款真正意义上的全能选手，在同一个模型中无缝统一了文本、图像、音频和视频的处理能力。

9/23/2025 9:20:05 AM

开源端到端语音大模型：直接从原始音频输入，生成语音输出

目前，大模型LLMs能胜任知识问答、代码辅助等多种任务，但传统模型大多只能输出文本，无法直接生成自然语音，这让人机音频交互不够顺畅。要知道，人类交流和感知环境可不只是靠文字，语音里藏着音色、情感、语调等丰富信息，其他音频也包含着现实场景的关键信息。所以，能根据语音或音频输入直接回应的音频语言模型就很重要，也是迈向AGI的关键一步。

7/2/2025 9:46:30 AM

何恺明CVPR最新讲座PPT上线：走向端到端生成建模

今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。除了交流论文、互加好友，很多参会者还参加了个非常有意思的项目 —— 追星。这个「星」自然是学术明星。

6/20/2025 9:14:00 AM

2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

当碳基生物还在为写文献综述，打开了一百个浏览器窗口时，隔壁AI已经卷起来了。（doge）两天完成人类12年工作——医学研究领域中，系统评价（SRs）作为临床决策的黄金标准，平均耗时超过16个月，花费10万美元以上，且容易延长无效或有害治疗方法的使用。于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。

6/17/2025 9:00:00 AM

ETT：打破原生多模态学习视觉瓶颈，重塑视觉tokenizer优化范式

本文由北京智源研究院多模态大模型研究中心（团队负责人王鑫龙，团队代表作 EMU 系列、EVA 系列、Painter & SegGPT）、中科院自动化所和大连理工大学联合完成。在多模态学习蓬勃发展的当下，视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁，其性能优劣直接决定了多模态模型的表现。然而，传统的视觉 tokenization 方法存在一个致命缺陷：视觉 tokenizer 的优化与下游任务的训练是相互割裂的。

5/28/2025 9:17:00 AM

深度解析以Decoder为核心的无BEV的大一统端到端架构 | 对话CCF-CV学术新锐奖贾萧松博士

论文的一些巧思1. 人开车其实并没有最优解，请问如何确定学习时的参考数据呢?开车其实也是多种多样的，然后你模仿学习本质上就是告诉他你只能这样做，你做了别的那个mass loss还会惩罚他。其实就是我们说的，我们其实就不能通过模仿来做。

3/18/2025 10:29:48 AM 自动驾驶之心

首篇AI自写论文通过ICLR 2025同行评审！6.25高分碾压人类，AI独挑科研大梁

首篇完全由AI生成的论文，竟通过了ICLR 2025同行评审！刚刚，Sakana AI正式亮相AI Scientist-v2版本，直接踢破了AI顶会的大门。从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表，再到撰写完整论文，所有环节均由AI完成。

3/13/2025 9:16:25 AM 新智元

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键

Deep Research（深度研究）是继「Operator」之后，OpenAI推出的第二个智能体，利用模型的推理能力，综合分析浩瀚的互联网信息，从而完成复杂的研究任务。月初，OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。最近，进一步开放给了更多等级的订阅用户。

3/3/2025 8:02:00 AM 新智元

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

2/19/2025 9:40:58 AM AIGC开放社区

北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建，代码已开源！

本篇文章来自公众号粉丝投稿，论文提出了一种可逆扩散模型（Invertible Diffusion Models，IDM）。这一方法通过引入（1）端到端的训练框架与（2）可逆网络设计，有效提升了图像重建的性能与效率。一、论文信息论文标题：Invertible Diffusion Models for Compressed Sensing论文作者：Bin Chen（陈斌）, Zhenyu Zhang（张振宇）, Weiqi Li（李玮琦）, Chen Zhao（赵琛）, Jiwen Yu（余济闻）, Shijie Zhao（赵世杰）, Jie Chen（陈杰） and Jian Zhang（张健）作者单位：北京大学信息工程学院、阿卜杜拉国王科技大学、字节跳动发表刊物：IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表时间：2025年2月5日正式版本：：：、任务背景扩散模型作为当前非常知名且强大的生成模型之一，已在图像重建任务中展现出极大的潜力。

2/18/2025 9:27:20 AM Bin Chen等

关于自动驾驶，尤其是端到端自动驾驶：到底有哪些可能的量产技术路线？

0.1 什么是端到端？首先定义端到端，当然有很多说法。我觉得，起码说相对于分阶段而言，规划不只是根据感知和预测的结果，而是其隐特征。

2/10/2025 10:35:00 AM 南木

不跟 OpenAI 玩了，人形机器人公司 Figure 称自研端到端取得“重大突破”

位于硅谷的机器人新创企业 Figure今日通过社交平台 X 宣布，终止与人工智能巨头 OpenAI 的合作关系。该公司声称取得“重大突破”，决定将重心转向自主研发人工智能技术。

2/5/2025 9:27:05 AM 清源

灵初智能发布首个基于强化学习的端到端具身模型 Psi R0，双灵巧手协同进行复杂操作

该模型支持双灵巧手协同进行复杂操作，将多个技能串联混训，生成具有推理能力的智能体，从而完成并闭环长程灵巧操作任务。并且，Psi R0还可以实现跨物品、跨场景级别的泛化。

12/30/2024 2:20:52 PM 沛霖（实习）

2 小时内收集数据学会新任务，星动纪元端到端原生机器人大模型 ERA-42 发布

模型不需要任何预编程技能，完全基于其泛化和自适应力，能在不到 2 小时内通过收集少量数据就学会执行新的任务。

12/23/2024 10:24:07 AM 沛霖（实习）

大幅超越所有SOTA！地平线DiffusionDrive：生成式方案或将重塑端到端格局？

写在前面&笔者的个人理解近年来，由于感知模型的性能持续进步，端到端自动驾驶受到了来自工业界和学术界的广泛关注，端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案，而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。为了有效地从数据中学习驾驶过程，主流的端到端规划器通常从自车查询中回归出单模轨迹，如下图所示。

12/3/2024 9:36:52 AM Bencheng Liao等

下注端到端：一场具身智能的谨慎豪赌

作者 | 赖文昕编辑 | 陈彩娴上个月末，世界机器人大会（WRC 2024）在北京刚刚结束，27 款人形机器人果然成为了会场中的主角。夹爪叠衣服、做汉堡，灵巧手抓鸡蛋、演手舞，轮式进商超，双足满场逛......在这场硅基生命的大 party 里，人形机器人们的才艺都得到了充分的展示，特别是在操作能力上有了显著提升。在具身智能时代，人形机器人代表着人类创造者对通用机器人终极形态的一大向往。

9/30/2024 3:22:00 PM 赖文昕

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉