AI在线 AI在线

训练

陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了

OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了金牌水平! IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。 而现在,一个AI模型做到了。
7/21/2025 9:00:00 AM

思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机

硅谷人才争夺战,火热升级! 过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。 顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!
7/18/2025 10:04:44 AM

小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现

大火的AI宠物,自己手搓一个更有性价比? ! 大脑还是GPT-4o的那种,外表长酱紫:这就是国外一个小哥受到了前段时间火遍全网的皮克斯台灯机器人启发,给自己手搓的“小宠物”。
7/17/2025 9:08:41 AM

模仿学习新范式,Chain-of-Action:轨迹自回归实现动作推理

论文标题:Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation主页链接:::(Embodied AI)作为人工智能领域的前沿方向,旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。 近年来,尽管视觉 - 语言 - 动作模型(Vision Language Action, VLA)已经取得了诸多进展,但具身智能领域尚未迎来 「GPT 时刻」。 越来越多的研究人员开始相信,仅仅增加模型规模和数据量似乎不足以创造出通用操作模型,如果我们想要充分释放现有数据的潜力,就需要找到更有效的机器人操作建模方法。
7/16/2025 10:42:32 AM

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员,Bernhard Schölkopf是德国马普所所长,Weiyang Liu是香港中文大学计算机系助理教授。 随着大型语言模型(LLM)推动人工智能领域取得突破性进展,如何实现高效、稳定的超大规模模型训练,始终是该领域最富挑战性的核心议题之一。
7/15/2025 9:27:29 AM

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/15/2025 9:00:00 AM

AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」

大模型在预训练阶段「读万卷书」,几乎囊括了全网的知识与语料。 但你有没有想过:我们能否让它「选择性遗忘」某些事实,甚至是常识性事实,比如「狗会叫」? 近日,Meta和纽约大学的研究团队发布了突破性论文《From Concepts to Components》,首次揭示了在 Transformer架构下,精准定位并控制AI认知模块的突破性方法。
7/14/2025 9:20:00 AM

这个AI精准模拟人类行为大脑状态,上Nature了

首个能跨领域精准预测人类认知的基础模型诞生! 不仅可以完全预判你的行为,还能知道你是如何思考、以及为什么思考。 这是一项最新登上Nature的突破性研究,来自德国的研究团队只用了5天训练时间就开发出人类认知的通用计算模型——Centaur。
7/14/2025 9:18:26 AM

VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!

本文第一作者为香港科技大学(广州)机器人系一年级博士生宋文轩,主要研究方向为VLA模型,共同第一作者是来自香港科技大学广州的研究助理陈家毅,项目leader为浙江大学和西湖大学联合培养博士生丁鹏翔,他们也是具身智能领域开源项目OpenHelix以及LLaVA-VLA的研究团队。 通讯作者为香港科技大学广州的李昊昂教授,他是今年的CVPR2025 Best Paper Candidate的获得者。 近年来,视觉 - 语言 - 动作(Vision-Language-Action, VLA)模型因其出色的多模态理解与泛化能力,已成为机器人领域的重要研究方向。
7/14/2025 9:14:00 AM

EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

论文作者团队简介:本文第一作者周鑫,共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。 合作者包括华中科技大学陈楷锦、冯天瑞、林鸿凯,旷视科技陈习武、丁宜康、谭飞杨和香港大学赵恒爽助理教授。 在HunyuanVideo上,EasyCache在复杂场景下保持与原视频的一致外观,同时显著加速1.
7/14/2025 8:51:00 AM

氛围编程后,Karpathy又双叒有新「脑洞」!PDF将死,未来99%是AI氛围阅读

Karpathy大神这次继Vibe Coding氛围编程后,又想造全新概念了! 大神说他早就抱怨了很多次,未来99%的「Attention」(注意力)即将被AI,而非人类关注。 但是现在99.9%的互联网内容还是「写给人看的」,不论是网页、视频还是科研PDF论文。
7/14/2025 8:44:00 AM

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。 然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
7/11/2025 9:10:00 AM

VLA统一架构新突破:自回归世界模型引领具身智能

本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。 王鑫龙团队,北京智源研究院,研究方向为原生多模态大模型,Emu 系列工作核心负责人。 张兆翔团队,中国科学院自动化研究所,研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。
7/10/2025 2:50:46 PM

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

在AI迈入多模态时代的当下,“让大模型上手机”成为产业落地的焦点。 现有MLLM在手机端部署时常面临两大难题:1、纯语言任务性能下降:现有的端侧MLLM在纯文本的任务上表现不尽人意;2、手机NPU不支持MoE架构:而MoE架构恰恰是多模态训练中保持语言能力的常用手段(比如CogVLM,Wings)。 vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。
7/4/2025 9:00:00 AM

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。 团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model ) PPO,③ 可验证奖励 (Verifiable Reward) GRPO(DeepSeek R1)。
7/4/2025 8:53:00 AM

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。 他和OpenAI前员工、现谷歌AI Studio产品负责人(Logan Kilpatrick,右)探讨了诸多众人好奇已久的问题:为啥Gemini一开始就被设计为原生多模态?
7/4/2025 8:43:00 AM

同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等

通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队联合美团,提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning)。 该方法通过基于熵的动态加权机制,将两种训练范式结合。
7/3/2025 8:33:00 AM

策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM

围棋、德州扑克曾是AI崛起的试炼场,从AlphaGo到Libratus,人工智能不断刷新策略上限。 但接下来的战场更难——Diplomacy:一款融合协作与竞争的七人博弈游戏,单轮动作空间高达10的64次方,其策略建模复杂度前所未有! 为此,Meta曾推出智能体Cicero[Meta, Science 2022],结合人类数据与策略搜索,在该领域实现突破,但其方法高度依赖超大规模均衡搜索与重资源训练,难以扩展与迁移。
7/2/2025 8:43:00 AM