工程
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障
本文主要作者来自上海交通大学和苏黎世大学,第一作者张宇昂,上海交通大学研究生,主要研究方向包括可微分物理机器人、多目标追踪和AIGC;共同一作胡瑜,上海交通大学博士生,主要研究方向为无人机视觉导航;共同一作宋运龙博士来自苏黎世大学,主要研究方向是强化学习、最优控制。 通讯作者为上海交通大学的林巍峣教授和邹丹平教授。 想象一下:在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。
7/8/2025 10:32:00 AM
机器之心
开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp
一、背景:开源 Web Agent 在艰难任务中的困境与突破在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。 从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都需要深入的信息挖掘和多步推理。 然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触及了人类认知的极限。
7/7/2025 4:25:00 PM
机器之心
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集
本文一作:陈天行,TianxingChen.github.io,2025 级香港大学 MMLab 博士生,师从罗平教授。 在学术顶会以一作 / 共一发表多篇论文,获得 ECCV 协同具身智能研讨会 Best Paper,CVPR Highlight 等。 获得 CCF 优秀大学生等多项荣誉以及 20 余项国家级竞赛奖项。
7/7/2025 4:22:00 PM
机器之心
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
是否可以在不依赖额外监督的前提下,仅通过无监督学习让模型学会思考? 答案有了。 在心理学领域,人类思维通常被划分为两种不同类型:系统 1(快速思维)和系统 2(慢速思维)。
7/7/2025 1:06:00 PM
机器之心
Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型
GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。 因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。 现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。
7/7/2025 12:58:00 PM
机器之心
集成20+先进算法,优于GPT-4o,自主因果分析智能体来了
来自加利福尼亚大学圣迭戈分校(UC San Diego)Biwei Huang 实验室的研究团队提出了一种自主因果分析智能体 Causal-Copilot。 该实验室专注于因果推理与机器学习的交叉研究,在因果发现和因果表征学习领域取得了多项重要成果。 论文共同第一作者 Xinyue Wang、Kun Zhou 和 Wenyi Wu 均来自 Biwei Huang 教授实验室,他们在因果推理与大语言模型结合方面开展了这项创新性研究。
7/6/2025 9:41:00 PM
机器之心
原来Scaling Law还能被优化?Meta这招省token又提效
2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。 尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。 现如今,这篇论文的引用量正向 19 万冲刺,而 Transformer 和注意力机制本身也已经历了很多改进和创新,比如我们前段时间报道过的「Multi-Token Attention」和「Multi-matrix Factorization Attention」等。
7/6/2025 9:38:00 PM
机器之心
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。 本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
7/6/2025 9:31:00 PM
机器之心
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准
本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。 此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。 其余主要成员也大部分来自 CoIR 项目组。
7/5/2025 6:41:00 PM
机器之心
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
马斯克搭帐篷熬夜开发有效果了? 这么高跑分,还不发布。 刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。
7/5/2025 6:36:00 PM
机器之心
ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生。 目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
7/5/2025 6:34:00 PM
机器之心
ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。 OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。 多智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。
7/5/2025 6:29:00 PM
机器之心
以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理
如果告诉你,AI在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信吗? 复旦NLP实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现:游戏不仅是娱乐工具,更是训练AI推理能力的宝贵资源。 标题:Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning论文链接:::,制约了视觉语言模型(VLMs)复杂推理能力的提升。
7/4/2025 5:18:00 PM
机器之心
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
本文第一作者为 Virginia Tech 计算机系博士 Candidate 曾欣悦,研究聚焦于提升大语言模型的理论可解释性与实证性能,以增强其在实际应用中的可靠性与泛化能力(个人主页:)。 通讯作者为周大为助理教授。 还在为海量 LLM 如何高效选型而头疼?
7/4/2025 5:09:00 PM
机器之心
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。 不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。 与此同时,离散扩散大语言模型(dLLM)成为有潜力的语言建模的非自回归替代。
4/20/2025 2:34:00 PM
机器之心
语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升
在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。 最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。 这一突破性进展的背后,是大规模语音数据的积累和大模型技术的快速发展。
4/20/2025 10:13:00 AM
机器之心
RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法
本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。 视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。 由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。
4/18/2025 12:05:00 PM
机器之心
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
本文由南洋理工大学和商汤科技联合完成。 第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生,在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。 项目负责作者为该校研究助理教授周尚辰和校长讲席教授吕建勤。
4/17/2025 8:37:00 PM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
AI新词
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
人形机器人
RAG
AI视频
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
生成式AI
场景
DeepMind
深度学习
特斯拉
AI模型
架构
MCP
Transformer
亚马逊
编程
视觉
预测