训练
无损减少80%激活值内存,提升5倍训练序列长度,仅需两行代码
本文的第一作者罗琪竣、第二作者李梦琦为香港中文大学(深圳)计算机科学博士生,本文在上海交通大学赵磊老师、香港中文大学(深圳)李肖老师的指导下完成。 长序列训练对于模型的长序列推理等能力至关重要。 随着序列长度增加,训练所需储存的激活值快速增加,占据训练的大部分内存。
6/24/2025 9:00:00 AM
CVPR 2025 Award Candidate | 英伟达等Difix3D+:用单步扩散模型修复 3D 重建伪影
在 3D 重建领域,无论是 NeRF 还是最新的 3D Gaussian Splatting(3DGS),在生成逼真新视角时仍面临一个核心难题:视角一旦偏离训练相机位置,图像就容易出现模糊、鬼影、几何错乱等伪影,严重影响实际应用。 为了解决这个问题,来自英伟达的研究团队联合提出了一种创新方案 —— Difix3D ,通过单步扩散模型对 3D 渲染结果进行 “图像修复”,显著提升新视角图像的质量和一致性。 该工作已被 CVPR 2025 接收,并入选 Best Paper Award 候选。
6/24/2025 8:40:00 AM
阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%
近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。 该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。 PAI-TurboX框架的应用范围广泛,涵盖了多模态数据预处理、离线大规模模型训练以及实时智驾推理等多个环节,为自动驾驶、具身智能等领域提供了全面解决方案。
6/23/2025 5:00:38 PM
AI在线
五年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
只靠强化学习,AGI就能实现? 「到2030年,不靠算法创新,只要继续收集数据,针对性训练,就能实现AGI。 」最近,这一关于AGI的未来道路的观点,引起了热议。
6/23/2025 9:15:00 AM
地球副本上线!人类机器人蜂拥进入「世界模拟器」,复刻全球3D真实空间
现实版「黑客帝国」来了! 刚刚,一个融合未来人机共生蓝图的虚拟平台悄然上线,它或将彻底改变我们理解人类和未来AI、机器人共生的方式! 这个平台名为虚拟社区(Virtual Community),由通用物理引擎Genesis驱动,基于真实三维世界构建,是一个开放给人类、机器人与整个社会的沉浸式实验场。
6/23/2025 9:10:00 AM
蚂蚁开源轻量级MoE推理模型Ring-lite
近日,蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。 该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点,该模型采用MoE架构,总参数为16.8B,但激活参数仅2.75B。
6/21/2025 5:01:05 PM
AI在线
AI写爆款博客火出圈,主笔竟是Claude!
最近,Anthropic给自家AI开了个博客。 这个叫「Claude Explain」的博客页面,内容主要由AI模型Claude生成。 博客包括《用Claude简化复杂代码库》这种硬核主题,旨在秀一把AI的写作能力。
6/20/2025 9:06:00 AM
推荐大模型来了?OneRec论文解读:端到端训练如何同时吃掉效果与成本
人人都绕不开的推荐系统,如今正被注入新的 AI 动能。 随着 AI 领域掀起一场由大型语言模型(LLM)引领的生成式革命,它们凭借着强大的端到端学习能力、海量数据理解能力以及前所未有的内容生成潜力,开始重塑各领域的传统技术栈。 作为互联网流量的核心引擎,推荐系统面临着级联架构导致的算力碎片化、优化目标割裂等问题,并逐渐制约其创新发展。
6/20/2025 9:03:00 AM
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM
20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考
现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。 让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;2.
6/19/2025 9:15:00 AM
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。 此前,清华大学陈键飞团队提出的即插即用的 SageAttention 和 SageAttention2 已经被业界及社区广泛的使用于各种开源及商业的大模型中,比如 Vidu,CogvideoX,Mochi,Wan,HunyuanVideo,Flux,Llama3,Qwen 等。 近日,清华大学陈键飞团队进一步提出了针对 BlackWell 架构的首个全 FP4 量化的即插即用注意力算子(SageAttention3)。
6/19/2025 9:07:00 AM
75%预训练数据都能删!Jeff Dean新作:全自动筛除低质量数据
机器学习领域有一条铁律,「Garbage In, Garbage Out.」,就是说模型的质量很大程度上取决于训练数据的质量。 大模型在预训练阶段会吸收海量的数据,其中数据的来源非常杂,导致质量参差不齐。 大量的实验和经验已经证明了,对预训练数据进行质量筛选是提高模型能力和效率的关键。
6/19/2025 8:50:00 AM
微软分享三大王炸算法:突破大模型推理瓶颈,性能大涨
今天凌晨,微软在官网分享了自研的三大创新算法,以帮助大模型增强其推理能力。 无论你是小参数或者是大参数模型玩家,都能从rStar-Math、LIPS 、CPL这三大算法获益,突破推理瓶颈,极大增强模型的数学推理和思考链的能力。 rStar-MathrStar-Math算法主要通过蒙特卡洛树搜索(MCTS)实现深度思考。
6/18/2025 9:06:00 AM
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。 但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。 一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
6/17/2025 9:04:33 AM
SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
近年来,链式推理和强化学习已经被广泛应用于大语言模型,让大语言模型的推理能力得到了显著提升。 然而,在图像生成模型中,这种成功经验尚未得到充分探索。 图像生成模型往往直接依据给定文本生成图像,缺乏类似人类创作过程中的推理,导致生成的图像在语义遵循上仍有一定局限。
6/17/2025 8:47:00 AM
网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架
让网页智能体自演进突破性能天花板! 腾讯AI Lab提出WebEvolver框架,通过引入协同进化的世界模型(World Model),让智能体在真实网页环境中实现10%的性能提升。 由此突破现有基于大语言模型(LLM)的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。
6/16/2025 2:40:40 PM
黄仁勋发布量子计算专用CUDA!预言量子计算机几年内应用,但现在还离不开GB200
“量子计算正在到达一个拐点。 ”在GTC巴黎的演讲中,英伟达CEO黄仁勋对量子计算给出了新的论断。 这次,老黄一改此前“实用量子计算机还要20年”的观点,预言量子计算机的实际应用在几年内就能实现。
6/13/2025 9:06:00 AM
256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
近日,抖音内容技术团队开源了 ContentV,一种面向视频生成任务的高效训练方案。 该方案在多项技术优化的基础上,使用 256 块 NPU,在约 4 周内完成了一个 8B 参数模型的训练。 尽管资源有限,ContentV 在多个评估维度上取得了与现有主流方案相近的生成效果。
6/13/2025 9:03:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用