训练

Llama 4全网首测来袭，3台Mac狂飙2万亿！多模态惊艳代码却翻车

谁也没料到，大周末的，小扎竟然开源了Llama 4家族。一共三款模型，首次采用MoE架构，开启了原生多模态的Llama时代！ Llama 4 Scout，激活17B，16个专家，109B参数；Llama 4 Maverick，激活17B，128个专家，402B参数；Llama 4 Behemoth，激活288B，16个专家，2T参数。

4/7/2025 9:20:00 AM

新智元

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 | ICRA 2025

机器人落地复杂场景，社交导航能力一定是避不开的关键一点。先简单介绍下，社交导航 (SocialNav，Social navigation) 是指在人机共存的环境中，机器人在遵循社会规范的前提下执行导航任务。就拿下图来说，机器人需导航至目标点，而目标恰好位于两名行人未来轨迹的交汇区域。

4/2/2025 9:50:00 AM

量子位

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。来自中科大的研究人员在信息瓶颈（Information Bottleneck）框架下，提出了一种新颖的鲁棒动作价值表征学习方法ROUSER。作者从理论上证明了ROUSER能够使用学习到的鲁棒表征准确估计动作价值，从而避免了智能体在测试环境中的决策能力遭到削弱。

4/1/2025 9:32:00 AM

量子位

从0编写基因组！史上最大生物学模型Evo-2全面开源：硅基生命能创造细胞？

生命的一切表现，基本都可以从DNA编码中找到答案。基因组（Genome）包含了生物体所有基因以及非编码的DNA序列，承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息，近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。然而，基因组的复杂性是巨大的，即使是最简单的微生物，也包含数百万个DNA碱基对，要智能地构建新的生物系统，研究人员还需要深入理解基因组编码的复杂信息。

3/31/2025 9:30:00 AM

新智元

Claude团队开盒Transformer：AI大脑原来这样工作

大模型工作机制的黑盒，终于被Claude团队揭开了神秘面纱！团队创造了一种解读大模型思考方式的新工具，就像给大模型做了个“脑部核磁”。他们还发现，Claude在某些任务上具备长远规划能力，甚至还会为了迎合人类而编造推理过程。

3/31/2025 8:12:00 AM

量子位

清华稀疏Attention，无需训练加速一切模型！

在当今各类大语言模型以及视频模型中，长序列场景越来越普遍，而 Attention 的计算复杂度随着序列长度呈平方增长，成为长序列任务下的主要计算瓶颈。此前，清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention，且在各类大模型上均保持了端到端的精度，已被业界和社区广泛使用。为了进一步加速 Attention，清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention（SpargeAttn）可用来加速任意模型。

3/27/2025 9:47:23 AM

机器之心

人形机器人优雅漫步，强化学习新成果！独角兽Figure创始人：之前大家吐槽太猛

注意看，机器人像人一样从容地走出大门了！甚至，还有一整支机器人队伍迎面走来。人形机器人独角兽Figure，再次带来他们的新成果——利用强化学习实现自然人形行走。

3/27/2025 9:19:57 AM

量子位

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

刚刚，DeepSeek官方发布DeepSeek-V3模型更新技术报告。 V3新版本在数学、代码类相关评测集成绩超过GPT-4.5！而且这只是通过改进后训练方法实现。

3/26/2025 9:16:05 AM

量子位

AMD跑DeepSeek性能超H200！128并发Token间延迟不超50ms，吞吐量达H200五倍

DeepSeek-R1掀起新一轮购卡潮的同时，AMD的含金量也上升了。在AMD的MI300X上跑FP8满血R1，性能全面超越了英伟达H200——相同延迟下吞吐量最高可达H200的5倍，相同并发下则比H200高出75%。这个结果，一方面归功于SGLang框架，另一方面则是得益于AMD新优化的AI内核库AITER。

3/25/2025 12:59:01 PM

量子位

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

当棋盘变成战场，当盟友暗藏心机，当谈判需要三十六计，AI 的智商令人叹息！近日，来自普林斯顿和德州大学奥斯丁分校最新评测基准 SPIN-Bench，用一套 "组合拳" 暴击了大模型的软肋。研究显示，即便是 o1、o3-mini、DeepSeek R1、GPT-4o、Claude 3.5 等顶尖大模型，在涉及战略规划和社会推理的复杂任务中集体 "自闭"。

3/25/2025 9:50:23 AM

机器之心

AI自我纠错，Diffusion超越自回归！质量提升55%，已达理论证据下界

如果大语言模型（LLMs）能够发现并纠正自己的错误，那岂不是很好？而且，如果能够直接从预训练中实现这一点，而无需任何监督微调（SFT）或强化学习（RL），那会怎样呢？最新提出的离散扩散模型，称为GIDD，它能够做到这一点。

3/24/2025 9:35:00 AM

新智元

AI预判了你的预判！人大高瓴团队发布TTR，教会AI一眼看穿你的下一步

本文作者均来自中国人民大学高瓴人工智能学院。其中，第一作者谭文辉是人大高瓴博士生（导师：宋睿华长聘副教授），他的研究兴趣主要在多模态与具身智能。本文通讯作者为宋睿华长聘副教授，她的团队 AIMind 主要研究方向为多模态感知、生成与交互。

3/20/2025 10:03:44 AM

机器之心

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

LightGen 主要作者来自香港科技大学和 Everlyn AI, 第一作者为香港科技大学准博士生吴显峰，主要研究方向为生成式人工智能和 AI4Science。通讯作者为香港科技大学助理教授 Harry Yang 和中佛罗里达副教授 Sernam Lim。共同一作有香港科技大学访问学生白亚靖，香港科技大学博士生郑皓泽，Everlyn AI 实习生陈浩东，香港科技大学博士生刘业鑫。

3/19/2025 10:41:11 AM

机器之心

首次，6人7天真人秀！南洋理工等发布第一视角AI生活管家数据EgoLife

当AI智能体（如Manus）接管你的大部分工作后，你是否曾想过，如何让自己的生活变得更加轻松与智能？试想一个未来场景：你佩戴着智能眼镜，一个AI助理能无缝融入你的日常生活，根据你的个人习惯提供贴心的美食建议，下班后提醒你曾经购买过的物品，甚至通过分析你和家人过去的活动来主动预测你的需求。这样一款「生活助手」将极大提升个人效率和家庭协作，让AI真正成为我们生活中的得力管家。

3/19/2025 9:43:43 AM

新智元

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

大模型同样的上下文窗口，只需一半内存就能实现，而且精度无损？前苹果ASIC架构师Nils Graef，和一名UC伯克利在读本科生一起提出了新的注意力机制Slim Attention。它以标准多头注意力（MHA）为基准，对其中的value缓存处理过程进行了调整，实现了更少的内存占用。

3/18/2025 9:23:22 AM

量子位

8张GPU训出近SOTA模型，超低成本图像生成预训练方案开源

超低成本图像生成预训练方案来了——仅需8张GPU训练，就能实现近SOTA的高质量图像生成效果。划重点：开源。模型名为LightGen，由港科大Harry Yang团队联合Everlyn AI等机构打造，借助知识蒸馏（KD）和直接偏好优化（DPO）策略，有效压缩了大规模图像生成模型的训练流程。

3/18/2025 9:21:31 AM

量子位

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学：迈向无冲突训练的ConFIG方法

本文由慕尼黑工业大学与北京大学联合团队撰写。第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授，专注于物理增强的深度学习算法，以提升数值模拟的灵活性及模型的准确性和泛化性。

3/17/2025 9:15:00 AM

机器之心

MM-Eureka：极少数据实现多模态推理的R1-Zero时刻

尽管 DeepSeek-R1 在单模态推理中取得了显著成功，但已有的多模态尝试（如 R1-V、R1-Multimodal-Journey、LMM-R1）尚未完全复现其核心特征。例如，R1-V 仅在简单计数任务上表现出进步，未能实现回答长度的增长和顿悟时刻；R1-Multimodal-Journey 则在训练过程中回答长度反而降低；LMM-R1 虽然有所进步，但尚未在大规模图文数据训练中得到验证。而 Kimi 1.5 尽管表现突出，但并未开源其模型或数据。

3/14/2025 11:59:29 AM

机器之心

资讯热榜

智谱AI全新企业级超级助手Agent CoCo正式上线苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能豆包App“一句话P图”功能全新升级基于SeedEdit 3.0实现全面优化 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟苹果向开发者开放本地AI能力，推出全新Foundation Models框架

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊