工程

ICLR 2025 Spotlight｜让机器人实现「自主进化」，蚂蚁数科、清华提出具身协同框架 BodyGen

第一作者卢昊飞、第二作者吴哲，分别为清华大学计算机系在读硕士与博士研究生。通讯作者兴军亮教授长期致力于感知与博弈决策的理论与应用研究，在多智能体系统、强化学习及智能决策等领域取得了一系列重要成果。最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight（聚光灯/特别关注）论文。

3/22/2025 8:55:00 PM

机器之心

火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

偶然发现了一个很有趣的 AI 基准测试，点开链接，竟然是一个 MineCraft 作品投票页面？如图所示，这些作品都是 AI 完成的，灰色框中的文字对应的是提示词。黑框是可点击的选项 ——A、B 或者持平。

3/21/2025 5:32:00 PM

机器之心

树搜索也存在「过思考」与「欠思考」？腾讯AI Lab与厦大联合提出高效树搜索框架

通讯作者包括腾讯 AI Lab研究员宋林峰与涂兆鹏，以及厦门大学苏劲松教授。论文第一作者为厦门大学博士生王安特。本文探讨基于树搜索的大语言模型推理过程中存在的「过思考」与「欠思考」问题，并提出高效树搜索框架——Fetch。

3/21/2025 12:55:00 PM

机器之心

预测误差降低12.3%，多车协同预测框架CMP，破解自动驾驶「视线盲区」

2025 年 3 月，加州大学河滨分校与密歇根大学、加州大学伯克利分校以及华盛顿大学联合团队在机器人领域顶级期刊《IEEE Robotics and Automation Letters》发表最新研究成果 ——CMP（Cooperative Motion Prediction），首次提出一种面向车联网（V2X）的协同运动预测框架，通过多车信息共享与融合，显著提升自动驾驶车辆的轨迹预测精度与场景适应能力。该技术已在真实场景数据集 V2V4Real 和仿真平台 OPV2V 中验证其高效性，相比现有最优模型，预测误差降低 12.3%，为复杂交通环境下的自动驾驶安全决策提供了全新解决方案。论文标题：CMP: Cooperative Motion Prediction with Multi-Agent Communication论文链接：：：：感知 - 预测一体化协同，破解自动驾驶 “视线盲区”传统自动驾驶系统依赖单车传感器，易受遮挡或极端天气影响，导致感知与预测能力受限。

3/21/2025 10:32:00 AM

机器之心

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

当我们看到一张猫咪照片时，大脑自然就能识别「这是一只猫」。但对计算机来说，它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片，实际上是一个包含 300 万个数字的数据集（1000×1000×3 个颜色通道）。每个数字代表一个像素点的颜色深浅，从 0 到 255。

3/20/2025 2:30:00 PM

机器之心

NAACL2025｜中国移动九天团队提出大模型调色板：一种可控文本生成的解决方案

中国移动九天人工智能团队（中国移动研究院人工智能与智慧运营中心），作为中国移动在人工智能领域的核心力量，自2013年起便致力于推动人工智能技术的研发与应用。该团队由中国移动集团级首席科学家、IEEE Fellow冯俊兰博士领衔，依托中国移动全球领先的算网基础设施、海量数据资源和丰富应用场景优势，全力打造“九天”人工智能品牌。九天人工智能团队不仅是中国移动在AI领域的“国家队”，更是推动行业智能化转型的重要引擎。

3/19/2025 1:44:00 PM

机器之心

超越DeepSeek GRPO的关键RL算法，字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率，不过其论文中似乎还缺少一些关键细节，让人难以复现出大规模和工业级的强化学习系统。近日，清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪辑和动态采样策略优化）。这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统。

3/18/2025 2:46:00 PM

机器之心

先别骂队友，上交如何让DeepSeek R1在分手厨房再也不糊锅？

本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写，第一作者张劭为上海交通大学博士生（导师：温颖副教授），研究方向为人智协同与多智能体系统，共同第一作者王锡淮为上海交通大学博士生（导师：张伟楠教授），研究方向为强化学习与多智能体系统。通讯作者温颖为上海交通大学人工智能学院副教授，其团队SJTU-MARL实验室研究方向涉及强化学习，多智能体系统及决策大模型。 AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区。

3/18/2025 2:37:00 PM

机器之心

模态GAP不存在了？图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世，推动了各个领域的任务大一统，也促进了多模态大模型的蓬勃发展。然而，这些经过图像级监督或弱语义训练的基座，并不是处理细粒度密集预测任务的最佳选择，尤其在理解包含密集文字的文档图像上。为解决这一限制，上交联合美团实现了图文对齐粒度的新突破，其具备三大核心优势：构建业内首个 token 级图文数据集 TokenIT：该数据集包含 2000 万条公开图像以及 18 亿高质量的 Token-Mask 对。

3/18/2025 10:40:00 AM

机器之心

ICLR 2025 | 四川大学提出Test-time Adaptation新范式，突破查询偏移挑战

在 NeurIPS 2024 大会上，OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 在其主题报告中展望了基础模型的未来研究方向，其中包括了 Inference Time Compute [1]，即增强模型在推理阶段的能力，这也是 OpenAI o1 和 o3 等核心项目的关键技术路径。作为 Inference Time Compute 的重要方向之一，Test-time Adaptation（TTA）旨在使预训练模型动态适应推理阶段中不同分布类型的数据，能够有效提高神经网络模型的分布外泛化能力。然而，当前 TTA 的应用场景仍存在较大局限性，主要集中在单模态任务中，如识别、分割等领域。

3/17/2025 5:43:00 PM

机器之心

北大团队提出LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

机构: 北京大学人工智能研究院北京通用人工智能研究院作者: 毛彦升徐宇飞李佳琪孟繁续杨昊桐郑子隆王希元张牧涵长文本任务是当下大模型研究的重点之一。在实际场景和应用中，普遍存在大量长序列（文本、语音、视频等），有些甚至长达百万级 tokens。扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本，更是能够更好地建模文本段落间信息的长程依赖关系，增强对长文的阅读理解和推理。

3/17/2025 2:42:00 PM

机器之心

大模型怎么做好角色扮演？最大的真实数据集、SoTA开源模型、最深入的评估在这里

王鑫涛，复旦大学博士生，师从肖仰华、汪卫教授，致力于探索用AI创造具有人格的数字生命。研究方向聚焦大语言模型与Agent技术，在AI角色扮演领域发表多篇ACL/EMNLP论文，以及该领域首篇研究综述，总计引用量三百余次。他的研究寻求AI技术与人类情感需求的结合。

3/17/2025 2:36:00 PM

机器之心

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

3/16/2025 10:27:00 PM

机器之心

逐字生成非最优？试试逐「块」生成！Block Diffusion打通了自回归与扩散

去年初，OpenAI 的视频生成模型 Sora 带火了扩散模型。如今，扩散模型被广泛用于生成图像和视频，并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲，与自回归模型相比，扩散模型具有加速生成和提高模型输出可控性的潜力。

3/16/2025 12:08:00 AM

机器之心

AI大佬曼宁转赞，MetaGPT团队首提「Atom of Thoughts」，原子化思考让4o-mini暴打推理模型？

AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学（广州）的滕枫蔚，通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国人民大学的石泉、香港科技大学（广州）的博士生张佳钇和助理教授骆昱宇。

3/16/2025 12:03:00 AM

机器之心

TRACE：因果事件建模助力视频理解大模型的时间定位能力

论文第一作者为香港中文大学（深圳）理工学院在读博士生郭永新，指导老师为通讯作者为香港中文大学（深圳）理工学院 / 人工智能学院助理教授唐晓莹，课题组研究方向包括大模型、联邦学习、充电智能优化与博弈等。下班回家后你正深陷于一部两小时的综艺节目中，渴望找到那些让人捧腹的爆笑片段，却如同大海捞针。或者，在紧张刺激的足球赛中，你渴望捕捉到那决定性的绝杀瞬间，但传统 AI 视频处理技术效率低下，且模型缺乏泛化能力。

3/15/2025 11:58:00 PM

机器之心

「压缩即智能」得到实验验证，无需预训练和大量数据就能解决ARC-AGI问题

「压缩即智能」。这并不是一个新想法，著名 AI 研究科学家、OpenAI 与 SSI 联合创始人 Ilya Sutskever 就曾表达过类似的观点。甚至早在 1998 年，计算机科学家 Jose Hernandez-Orallo 就已经在论文《A Formal Definition of Intelligence Based on an Intensional Variant of Algorithmic Complexity》中有过相关的理论论述。

3/15/2025 11:56:00 PM

机器之心

3FS系列（一）：存储新纪元的开篇——3FS编译调优与部署的工程实践

系列文章目录3FS系列（一）：存储新纪元的开篇——3FS编译调优与部署的工程实践引言2月24日，重磅存储系统3FS（Fire-Flyer File System）在 DeepSeek 轰轰烈烈的开源周压轴登场，补齐了计算、网络以外的另一块拼图——存储。区别于过往巧妙算法的开源库，3FS 是完整的涉及多种节点、结合多种外部节点的高速并行文件系统，其代码结构清晰、模块间解耦程度高，充分展现了 DeepSeek 工程师对复杂工程的驾驭能力。作为 DeepSeek 开源生态的一部分，3FS 于 2025 年 2 月 27 日在 GitHub 上正式开源，一经发布热度值瞬间爆表，引发业界关注。

3/14/2025 5:32:00 PM

九章云极DataCanvas

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评借助 AgentCore Memory 为智能体应用添加记忆功能深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 RAG AI视频大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成生成式AI 场景 DeepMind 深度学习特斯拉 AI模型架构 MCP Transformer 亚马逊编程视觉预测