AI在线 AI在线

训练

无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码

本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。 长序列训练对于模型的长序列推理等能力至关重要。 随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。
6/24/2025 9:00:00 AM

CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影

在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM

阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%

近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。 该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。 PAI-TurboX框架的应用范围广泛,涵盖了多模态数据预处理、离线大规模模型训练以及实时智驾推理等多个环节,为自动驾驶、具身智能等领域提供了全面解决方案。
6/23/2025 5:00:38 PM
AI在线

五年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!

只靠强化学习,AGI就能实现? 「到2030年,不靠算法创新,只要继续收集数据,针对性训练,就能实现AGI。 」最近,这一关于AGI的未来道路的观点,引起了热议。
6/23/2025 9:15:00 AM

地球副本上线!人类机器人蜂拥进入「世界模拟器」,复刻全球3D真实空间

现实版「黑客帝国」来了! 刚刚,一个融合未来人机共生蓝图的虚拟平台悄然上线,它或将彻底改变我们理解人类和未来AI、机器人共生的方式! 这个平台名为虚拟社区(Virtual Community),由通用物理引擎Genesis驱动,基于真实三维世界构建,是一个开放给人类、机器人与整个社会的沉浸式实验场。
6/23/2025 9:10:00 AM

蚂蚁开源轻量级MoE推理模型Ring-lite

近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
6/21/2025 5:01:05 PM
AI在线

AI写爆款博客火出圈,主笔竟是Claude!

最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
6/20/2025 9:06:00 AM

推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本

人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
6/20/2025 9:03:00 AM

美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练

只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。 让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;2.
6/19/2025 9:15:00 AM

清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练

随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。 此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。 近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子(SageAttention3)。
6/19/2025 9:07:00 AM

75%预训练数据都能删!Jeff Dean新作:全自动筛除低质量数据

机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。 大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。 大量的实验和经验已经证明了,对预训练数据进行质量筛选是提高模型能力和效率的关键。
6/19/2025 8:50:00 AM

微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨

今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。 无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。 rStar-MathrStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。
6/18/2025 9:06:00 AM

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM

SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?

近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。 然而,在图像生成模型中,这种成功经验尚未得到充分探索。 图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。
6/17/2025 8:47:00 AM

网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架

让网页智能体自演进突破性能天花板! 腾讯AI Lab提出WebEvolver框架,通过引入协同进化的世界模型(World Model),让智能体在真实网页环境中实现10%的性能提升。 由此突破现有基于大语言模型(LLM)的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。
6/16/2025 2:40:40 PM

黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200

“量子计算正在到达一个拐点。 ”在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算给出了新的论断。 这次,老黄一改此前“实用量子计算机还要20年”的观点,预言量子计算机的实际应用在几年内就能实现。
6/13/2025 9:06:00 AM

256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV

近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM