端到端
开源端到端语音大模型:直接从原始音频输入,生成语音输出
目前,大模型LLMs能胜任知识问答、代码辅助等多种任务,但传统模型大多只能输出文本,无法直接生成自然语音,这让人机音频交互不够顺畅。 要知道,人类交流和感知环境可不只是靠文字,语音里藏着音色、情感、语调等丰富信息,其他音频也包含着现实场景的关键信息。 所以,能根据语音或音频输入直接回应的音频语言模型就很重要,也是迈向AGI的关键一步。
7/2/2025 9:46:30 AM
何恺明CVPR最新讲座PPT上线:走向端到端生成建模
今年的 CVPR 已经在美国田纳西州纳什维尔顺利闭幕。 除了交流论文、互加好友,很多参会者还参加了个非常有意思的项目 —— 追星。 这个「星」自然是学术明星。
6/20/2025 9:14:00 AM
2天完成人类12年工作,AI自动更新文献综述,准确率碾压人类近15%
当碳基生物还在为写文献综述,打开了一百个浏览器窗口时,隔壁AI已经卷起来了。 (doge)两天完成人类12年工作——医学研究领域中,系统评价(SRs)作为临床决策的黄金标准,平均耗时超过16个月,花费10万美元以上,且容易延长无效或有害治疗方法的使用。 于是多伦多大学、哈佛医学院等机构联合开发了AI端到端工作流程——otto-SR。
6/17/2025 9:00:00 AM
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
本文由北京智源研究院多模态大模型研究中心(团队负责人王鑫龙,团队代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自动化所和大连理工大学联合完成。 在多模态学习蓬勃发展的当下,视觉 tokenizer 作为连接视觉信息与下游任务的关键桥梁,其性能优劣直接决定了多模态模型的表现。 然而,传统的视觉 tokenization 方法存在一个致命缺陷:视觉 tokenizer 的优化与下游任务的训练是相互割裂的。
5/28/2025 9:17:00 AM
深度解析以Decoder为核心的无BEV的大一统端到端架构 | 对话CCF-CV学术新锐奖贾萧松博士
论文的一些巧思1. 人开车其实并没有最优解,请问如何确定学习时的参考数据呢?开车其实也是多种多样的,然后你模仿学习本质上就是告诉他你只能这样做,你做了别的那个mass loss还会惩罚他。 其实就是我们说的,我们其实就不能通过模仿来做。
3/18/2025 10:29:48 AM
自动驾驶之心
首篇AI自写论文通过ICLR 2025同行评审!6.25高分碾压人类,AI独挑科研大梁
首篇完全由AI生成的论文,竟通过了ICLR 2025同行评审! 刚刚,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI顶会的大门。 从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由AI完成。
3/13/2025 9:16:25 AM
新智元
5分钟顶人类8小时!OpenAI Deep Research订阅全推送,端到端强化微调是关键
Deep Research(深度研究)是继「Operator」之后,OpenAI推出的第二个智能体,利用模型的推理能力,综合分析浩瀚的互联网信息,从而完成复杂的研究任务。 月初,OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。 最近,进一步开放给了更多等级的订阅用户。
3/3/2025 8:02:00 AM
新智元
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪
今天凌晨2点,OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。 目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。 例如,开发人员需处理全技术栈的工作,要考虑代码库间的复杂交互和权衡。
2/19/2025 9:40:58 AM
AIGC开放社区
北大、KAUST、字节联合提出“可逆扩散模型”赋能图像重建,代码已开源!
本篇文章来自公众号粉丝投稿,论文提出了一种可逆扩散模型(Invertible Diffusion Models,IDM)。 这一方法通过引入(1)端到端的训练框架与(2)可逆网络设计,有效提升了图像重建的性能与效率。 一、论文信息论文标题:Invertible Diffusion Models for Compressed Sensing论文作者:Bin Chen(陈斌), Zhenyu Zhang(张振宇), Weiqi Li(李玮琦), Chen Zhao(赵琛), Jiwen Yu(余济闻), Shijie Zhao(赵世杰), Jie Chen(陈杰) and Jian Zhang(张健)作者单位:北京大学信息工程学院、阿卜杜拉国王科技大学、字节跳动发表刊物:IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)发表时间:2025年2月5日正式版本:::、任务背景扩散模型作为当前非常知名且强大的生成模型之一,已在图像重建任务中展现出极大的潜力。
2/18/2025 9:27:20 AM
Bin Chen等
关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?
0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木
不跟 OpenAI 玩了,人形机器人公司 Figure 称自研端到端取得“重大突破”
位于硅谷的机器人新创企业 Figure今日通过社交平台 X 宣布,终止与人工智能巨头 OpenAI 的合作关系。该公司声称取得“重大突破”,决定将重心转向自主研发人工智能技术。
2/5/2025 9:27:05 AM
清源
灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作
该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0还可以实现跨物品、跨场景级别的泛化。
12/30/2024 2:20:52 PM
沛霖(实习)
2 小时内收集数据学会新任务,星动纪元端到端原生机器人大模型 ERA-42 发布
模型不需要任何预编程技能,完全基于其泛化和自适应力,能在不到 2 小时内通过收集少量数据就学会执行新的任务。
12/23/2024 10:24:07 AM
沛霖(实习)
大幅超越所有SOTA!地平线DiffusionDrive:生成式方案或将重塑端到端格局?
写在前面&笔者的个人理解近年来,由于感知模型的性能持续进步,端到端自动驾驶受到了来自工业界和学术界的广泛关注,端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。 这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案,而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。 为了有效地从数据中学习驾驶过程,主流的端到端规划器通常从自车查询中回归出单模轨迹,如下图所示。
12/3/2024 9:36:52 AM
Bencheng Liao等
下注端到端:一场具身智能的谨慎豪赌
作者 | 赖文昕编辑 | 陈彩娴上个月末,世界机器人大会(WRC 2024)在北京刚刚结束,27 款人形机器人果然成为了会场中的主角。 夹爪叠衣服、做汉堡,灵巧手抓鸡蛋、演手舞,轮式进商超,双足满场逛......在这场硅基生命的大 party 里,人形机器人们的才艺都得到了充分的展示,特别是在操作能力上有了显著提升。 在具身智能时代,人形机器人代表着人类创造者对通用机器人终极形态的一大向往。
9/30/2024 3:22:00 PM
赖文昕
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用