AI在线 AI在线

工程

还在为AI数据发愁?张文涛和鄂维南院士团队推出Data-centric AI系统

1. 基本介绍近年来,大模型发展主要由大型科技公司主导,其领先的核心在于规模庞大且高质量的数据资源。 然而,这些公司通常并不公开其原始数据及数据处理工具,使得学术界在大模型训练数据的构建与优化方面难以追赶,受制甚深。
7/8/2025 5:59:00 PM
机器之心

500万视频数据集+全新评测框架!北大开源主体一致性视频生成领域新基建OpenS2V-Nexus,生成视频 「像」 又 「自然」

想让 AI 能 「看着你的自拍就生成一致且自然的短视频」 吗? 这就是 Subject-to-Video(S2V)生成要解决的问题:让视频生成不仅对齐文本,还能准确保留指定人物或物体的特征,让生成的视频既 「像」 又 「自然」。 这一能力对于短视频生成、虚拟人、AI 剪辑等都有巨大意义。
7/8/2025 5:51:00 PM
机器之心

Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限

线性循环模型(如 Mamba)和线性注意力机制都具备这样一个显著优势:它们能够处理极长的序列,这一能力对长上下文推理任务至关重要。 事实上,这正是它们相较于 Transformer 的关键优势 —— 后者受限于有限的上下文窗口,且在序列长度上的计算复杂度是二次的,成为性能瓶颈。  过去,循环模型面临的主要问题是性能不足:在处理短序列时,它们的表现往往不如 Transformer。
7/8/2025 1:07:00 PM
机器之心

ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA,看o3、R1哪家强

本文作者来自于清华大学和上海 AI Lab,通讯作者为清华大学丁宁助理教授和清华大学讲席教授、上海 AI Lab 主任周伯文教授。 论文标题:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding论文:: : ICML 2025 接收,并且被 DeepMind MedGemma 采用为评估基准。 基准地址:?
7/8/2025 1:01:00 PM
机器之心

上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障

本文主要作者来自上海交通大学和苏黎世大学,第一作者张宇昂,上海交通大学研究生,主要研究方向包括可微分物理机器人、多目标追踪和AIGC;共同一作胡瑜,上海交通大学博士生,主要研究方向为无人机视觉导航;共同一作宋运龙博士来自苏黎世大学,主要研究方向是强化学习、最优控制。 通讯作者为上海交通大学的林巍峣教授和邹丹平教授。 想象一下:在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。
7/8/2025 10:32:00 AM
机器之心

开源Agent新标杆:通义WebSailor多榜夺魁,挑战OpenAI高难度Agent基准BrowseComp

一、背景:开源 Web Agent 在艰难任务中的困境与突破在信息爆炸的时代,传统搜索引擎难以满足用户对深层次、多步骤信息获取的需求。 从医学研究到科技创新,从商业决策到学术探索,许多复杂问题的解决都需要深入的信息挖掘和多步推理。 然而,人类在有限时间和精力下很难手工完成如此繁琐的检索与推理过程,这可以说触及了人类认知的极限。
7/7/2025 4:25:00 PM
机器之心

RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集

本文一作:陈天行,TianxingChen.github.io,2025 级香港大学 MMLab 博士生,师从罗平教授。 在学术顶会以一作 / 共一发表多篇论文,获得 ECCV 协同具身智能研讨会 Best Paper,CVPR Highlight 等。 获得 CCF 优秀大学生等多项荣誉以及 20 余项国家级竞赛奖项。
7/7/2025 4:22:00 PM
机器之心

新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%

是否可以在不依赖额外监督的前提下,仅通过无监督学习让模型学会思考? 答案有了。 在心理学领域,人类思维通常被划分为两种不同类型:系统 1(快速思维)和系统 2(慢速思维)。
7/7/2025 1:06:00 PM
机器之心

Stream-Omni:同时支持各种模态组合交互的文本-视觉-语音多模态大模型

GPT-4o式的多模态大模型(LMMs)展现出在文本、视觉和语音模态上的全能能力,其在线语音服务还能在语音交互过程中同步提供中间文本结果(即用户输入和模型响应的转录内容),为用户提供“边看边听”的灵活交互体验。 因此,如何构建支持文本、视觉和语音三种模态的多模态大模型成为近期研究热点。 现有的多模态大模型通常利用多个编码器提取各个模态的表示,然后将各模态表示沿序列维度拼接并输入至大语言模型基座中以生成回复。
7/7/2025 12:58:00 PM
机器之心

集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

来自加利福尼亚大学圣迭戈分校(UC San Diego)Biwei Huang 实验室的研究团队提出了一种自主因果分析智能体 Causal-Copilot。 该实验室专注于因果推理与机器学习的交叉研究,在因果发现和因果表征学习领域取得了多项重要成果。 论文共同第一作者 Xinyue Wang、Kun Zhou 和 Wenyi Wu 均来自 Biwei Huang 教授实验室,他们在因果推理与大语言模型结合方面开展了这项创新性研究。
7/6/2025 9:41:00 PM
机器之心

原来Scaling Law还能被优化?Meta这招省token又提效

2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。 尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。 现如今,这篇论文的引用量正向 19 万冲刺,而 Transformer 和注意力机制本身也已经历了很多改进和创新,比如我们前段时间报道过的「Multi-Token Attention」和「Multi-matrix Factorization Attention」等。
7/6/2025 9:38:00 PM
机器之心

复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文的主要作者来自北京航空航天大学、北京大学和北京智源人工智能研究院。 本文的第一作者为北京航空航天大学硕士生周恩申,主要研究方向为具身智能和多模态大模型。 本文的共一作者兼项目负责人为北京智源研究院研究员迟程。
7/6/2025 9:31:00 PM
机器之心

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。 此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。 其余主要成员也大部分来自 CoIR 项目组。
7/5/2025 6:41:00 PM
机器之心

刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信

马斯克搭帐篷熬夜开发有效果了? 这么高跑分,还不发布。 刚刚,Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。
7/5/2025 6:36:00 PM
机器之心

ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速

本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生。 目前在上海交通大学EPIC Lab进行科研实习,接受张林峰助理教授指导,研究方向是高效模型和AIGC。 本文主要介绍张林峰教授的团队的最新论文:EEdit⚡: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing。
7/5/2025 6:34:00 PM
机器之心

ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成

本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。 OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。 多智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。
7/5/2025 6:29:00 PM
机器之心

以玩促学?游戏代码驱动数据合成,提升多模态大模型通用推理

如果告诉你,AI在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信吗? 复旦NLP实验室联合字节跳动智能服务团队的最新研究给出了一个令人意外的发现:游戏不仅是娱乐工具,更是训练AI推理能力的宝贵资源。 标题:Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning论文链接:::,制约了视觉语言模型(VLMs)复杂推理能力的提升。
7/4/2025 5:18:00 PM
机器之心

告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」

本文第一作者为 Virginia Tech 计算机系博士 Candidate 曾欣悦,研究聚焦于提升大语言模型的理论可解释性与实证性能,以增强其在实际应用中的可靠性与泛化能力(个人主页:)。 通讯作者为周大为助理教授。 还在为海量 LLM 如何高效选型而头疼?
7/4/2025 5:09:00 PM
机器之心