AI在线 AI在线

模型

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。 长序列训练对于模型的长序列推理等能力至关重要。 随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。
6/24/2025 9:00:00 AM

我在哪?要去哪?要怎么去?字节跳动提出Astra双模型架构助力机器人自由导航

在当今科技飞速发展的时代,机器人在各个领域的应用越来越广泛,从工业生产到日常生活,都能看到它们的身影。 然而,现代机器人导航系统在多样化和复杂的室内环境中面临着诸多挑战,传统方法的局限性愈发明显。 一、传统导航瓶颈凸显,Astra 应势而生在复杂的真实世界中,移动机器人想要安全可靠地行走,必须解决三大挑战:我要去哪?
6/24/2025 8:57:43 AM

CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM

奥特曼YC硬核访谈:走ChatGPT之路必死,世界差点没有OpenAI!

奥特曼YC创业学院访谈,终于放出了。 四十多分钟的访谈中,他回溯了打造OpenAI的艰难历程,首次透露了职业生涯至暗时刻,以及内部正在构建的GPT-5。 最令人印象深刻的是,他劝告所有人——不要开发类ChatGPT,这是OpenAI的护城河,要勇闯无人区。
6/23/2025 5:59:17 PM

阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%

近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。 该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。 PAI-TurboX框架的应用范围广泛,涵盖了多模态数据预处理、离线大规模模型训练以及实时智驾推理等多个环节,为自动驾驶、具身智能等领域提供了全面解决方案。
6/23/2025 5:00:38 PM
AI在线

Google Gemma团队发布Magenta RealTime:开源实时音乐生成模型引发关注

近日,Google Gemma团队正式发布了Magenta RealTime,一款专为实时音乐生成设计的开源AI模型。 这一突破性发布标志着Google在AI音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。 以下内容综合了来自AIbase及其他网络资源的最新信息,展现了Magenta RT的核心特点及其潜在影响。
6/23/2025 10:00:56 AM
AI在线

AI进化新里程碑!大模型首次具备人类空间思维能力!

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。 这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作,推出了名为 ViLaSR-7B 的模型,专注于空间推理任务。 这个模型通过一种名为 “边看边画” 的训练方法,能够在理解图像的同时进行空间推理,从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。
6/23/2025 10:00:48 AM
AI在线

OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式

AGI所需突破已经实现! OpenAI前研究主管Bob McGrew公开表示:AGI的「技术拼图」已经齐全,关键在于如何将推理能力落地,并重塑价值创造路径作为研究主管,他见证了OpenAI从GPT-3的突破到如今推理模型的演变。 他认为,实现通用人工智能 (AGI) 的三大支柱是:Transformer、规模化预训练和推理。
6/23/2025 9:16:00 AM

Claude要挟人类只为活命!16大模型实测:受到威胁,敲诈勒索绝不犹豫

AI安全性研究又有新发现了,但不是好消息! Anthropic今天披露了一项令人瞠目结舌的研究结果:在模拟的企业环境中,前沿大模型为了阻止自己被「换掉」,居然纷纷选择了敲诈管理层、泄露机密,以阻止自己被替换! 包括Claude、GPT-4.1、Gemini、Grok在内的16款模型,全部都会通过「敲诈」来阻止自己被关闭,即使它们能意识到自己行为违反了道德规范,但依然选择了执行。
6/23/2025 9:12:00 AM

知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」

大语言模型的知识储备要远远超越任何一个人类,在各种领域、应用场景下都展现出了惊人的「世界知识」。 最近兴起的智能体,就是要求模型利用自身知识,在没有大量与环境互动的情况下生成更优的行动预测,比如思维链(CoT)就能让模型能够对观察到的历史和自己的行动进行推理,提升与环境互动的表现。 不过,在决策(decision-making)场景中,「知识储备」和「推理优势」并没有提升大模型的能力,反而可能导致探索力不足,使得决策结果不够理想。
6/23/2025 9:09:00 AM

大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了

作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。 第一作者束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部机制与 “思维” 过程。 通讯作者为新泽西理工学院的杜梦楠教授。
6/23/2025 9:08:00 AM

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。 从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。 近日,Daniel Han 和 Michael Han 两兄弟组成的团队 Unsloth(用于微调模型的同名开源项目 GitHub 星数已超过 4 万)发布了一个强化学习教程,其中从吃豆人谈起,简单易懂地从 RLHF、PPO 介绍到 GRPO,还分享了如何用 GRPO 训练推理模型的技巧。
6/23/2025 9:07:00 AM

三个大模型合作,1000次迭代,竟能像人类科学家一样发现方程

随着 AI4Science 的浪潮席卷科研各领域,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,正成为该领域亟待突破的关键问题。 近日,中国科学院自动化研究所的研究人员提出了一种创新性框架 ——DrSR (Dual Reasoning Symbolic Regression):通过数据分析与经验归纳 “双轮驱动”,赋予大模型像科学家一样 “分析数据、反思成败、优化模型” 的能力。 在 DrSR 中,三位 “虚拟科学家” 协同工作:一个善于洞察变量关系的 “数据科学家”;一个擅长总结失败教训与成功经验的 “理论科学家”;一个勇于尝试假设、不断优化模型的 “实验科学家”。
6/23/2025 9:04:00 AM

Sam Altman提醒创业者:ChatGPT将来要做的,大家就绕开吧

Y Combinator 最近在旧金山举办的 AI Startup School 活动,邀请了大量 AI 领域最具影响力的创始人和专家进行现场对谈和演讲,之前 Andrej Karpathy 在活动上的演讲视频爆火,现在 OpenAI CEO Sam Altman 的最新采访也已上线。 视频地址:,Altman 深入复盘了从早期创业艰辛到缔造 OpenAI 的完整历程。 他不仅分享了对雄心、责任及全球瞩目下如何前行的思考,还就早期关键决策、未来技术机遇、产品形态及个人领导哲学等话题,给出了深刻洞见。
6/23/2025 9:02:00 AM

开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! 技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院作者: Size Wu*,  Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy开源代码: : [email protected]架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用三大核心优势🏗️ 架构极简仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简⚡ 参数高效1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当 📂 完全开源模型权重 训练代码 2300 万数据集全部公开架构设计与训练策略OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:1.256 个可学习查询 - 从用户指令中提取条件信息2.
6/23/2025 9:01:00 AM

​月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
6/23/2025 9:00:38 AM
AI在线

月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA

昨天,月之暗面发了篇博客,介绍了一款名为 Kimi-Researcher 的自主 Agent。 这款 Agent 擅长多轮搜索和推理,平均每项任务执行 23 个推理步骤,访问超过 200 个网址。 它是基于 Kimi k 系列模型的内部版本构建,并完全通过端到端智能体强化学习进行训练,也是国内少有的基于自研模型打造的 Agent。
6/23/2025 9:00:00 AM