工程

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。该方法通过预定义奖励函数规避人工标注成本，如 DeepSeek-R1 在数学求解中的成功应用，以及多模态领域在图像定位等任务上的性能突破（通常使用 IOU 作为规则 reward）。 vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发，首次将基于规则的强化学习（RL）应用到了 GUI 智能体领域。

4/8/2025 6:33:00 PM 机器之心

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。

4/8/2025 1:27:00 PM 机器之心

颠覆传统信息搜索，效果是之前SOTA的三倍？UIUC韩家炜、孙冀萌团队开源DeepRetrieval，让模型端到端地学会搜索！

在信息检索系统中，搜索引擎的能力只是影响结果的一个方面，真正的瓶颈往往在于：用户的原始 query 本身不够好。尤其在专业搜索场景（如文献、数据库查询）中，用户往往无法用精确、完整的表达描述他们的需求。那么问题来了：能不能教大模型优化原始 query 的表达方式，从而让已有检索系统的能力被最大化激发？

4/8/2025 1:22:00 PM 机器之心

MoCha：开启自动化多轮对话电影生成新时代

本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生，导师为陈文虎教授，陈文虎教授为通讯作者。近年来，视频生成技术在动作真实性方面取得了显著进展，但在角色驱动的叙事生成这一关键任务上仍存在不足，限制了其在自动化影视制作与动画创作中的应用潜力。

4/7/2025 1:17:00 PM 机器之心

铰链物体的通用世界模型，超越扩散方法，入选CVPR 2025

基于当前观察，预测铰链物体的的运动，尤其是 part-level 级别的运动，是实现世界模型的关键一步。尽管现在基于 diffusion 的方法取得了很多进展，但是这些方法存在处理效率低，同时缺乏三维感知等问题，难以投入真实环境中使用。清华大学联合北京大学提出了第一个基于重建模型的 part-level 运动的建模——PartRM。

4/7/2025 1:10:00 PM 机器之心

ILLUME+：华为诺亚探索新GPT-4o架构，理解生成一体模型，昇腾可训！

近年来，基于大语言模型（LLM）的多模态任务处理能力取得了显著进展，特别是在将视觉信息融入语言模型方面。像 QwenVL 和 InternVL 这样的模型已经展示了在视觉理解方面的卓越表现，而以扩散模型为代表的文本到图像生成技术也不断突破，推动了统一多模态大语言模型（MLLM）的发展。这些技术的进步使得视觉理解和生成能力的无缝集成成为可能，进一步推进了视觉和语义深度融合下的人工通用智能（AGI）的探索。

4/7/2025 12:59:00 PM 机器之心

大语言模型变身软体机器人设计「自然选择器」，GPT、Gemini、Grok争做最佳

大型语言模型 (LLM) 在软体机器人设计领域展现出了令人振奋的应用潜力。密歇根大学安娜堡分校的研究团队开发了一个名为「RoboCrafter-QA」的基准测试，用于评估 LLM 在软体机器人设计中的表现，探索了这些模型能否担任机器人设计的「自然选择器」角色。这项研究为 AI 辅助软体机器人设计开辟了崭新道路，有望实现更自动化、更智能的设计流程。

4/6/2025 9:58:00 AM 机器之心

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

不必纠结了！人类大脑天然具备同时理解和创造视觉与语言信息的能力。一个通用的多模态大语言模型（MLLM）理应复刻人类的理解和生成能力，即能够自如地同时处理与生成各种模态内容，实现多模态交互，这也是向通用人工智能（AGI）迈进的关键挑战之一。

4/5/2025 5:24:00 PM 机器之心

CVPR 2025 | GaussianCity: 60倍加速，让3D城市瞬间生成

想象一下，一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算，没有庞大的存储需求，只有极速的生成和惊人的细节。然而，现实却远非如此。现有的 3D 城市生成方法，如基于 NeRF 的 CityDreamer [1]，虽然能够生成逼真的城市场景，但渲染速度较慢，难以满足游戏、虚拟现实和自动驾驶模拟对实时性的需求。

4/5/2025 5:07:00 PM 机器之心

Multi-Token突破注意力机制瓶颈，Meta发明了一种很新的Transformer

当上下文包含大量 Token 时，如何在忽略干扰因素的同时关注到相关部分，是一个至关重要的问题。然而，大量研究表明，标准注意力在这种情况下可能会出现性能不佳的问题。标准多头注意力的工作原理是使用点积比较当前查询向量与上下文 Token 对应的键向量的相似性。

4/4/2025 6:23:00 PM 机器之心

ICLR 2025 Spotlight | 参数高效微调新范式！上海交大联合上海AI Lab推出参数冗余微调算法

本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培的博二学生，目前是实验室见习研究员，师从上海交通大学人工智能学院王钰教授。本文通讯作者为王钰教授与张娅教授。

4/3/2025 1:54:00 PM 机器之心

脑波解码延迟仅80毫秒，实时「意念对话」技术登Nature子刊

无法说话的人，现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟，也不需要打字，不用发出任何声音。本周，脑机接口的最新研究在社交网络上引发了人们的热烈讨论，一位推特博主的帖子浏览量突破了 150 万。

4/2/2025 6:10:00 PM 机器之心

近千个反现实视频构建了「不可能」基准，哪个AI不服？来战！

白泽琛，新加坡国立大学 Show Lab 博士生，他的研究方向主要包括视频理解和统一的多模态模型，在 CVPR、ICCV、NeurIPS、ICLR 等会议发表多篇文章；曾在 Amazon AI 担任 Applied Scientist，在 ByteDance、Baidu 担任 Research Intern。兹海，新加坡国立大学 Show Lab Research Fellow，于北京大学获得博士学位，主要研究方向为多模态模型的安全。 Mike Zheng Shou，PI，新加坡国立大学校长青年教授，福布斯 30 under 30 Asia，创立并领导 Show Lab 实验室。

4/2/2025 6:05:00 PM 机器之心

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域，高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景，反复验证算法的可靠性。然而，传统仿真技术往往面临两大难题：首先是视角局限，依赖单一轨迹数据，如一条固定路线的摄像头录像，重建的场景只能在有限视角内逼真，无法支持车辆 “自由探索”。

4/2/2025 1:17:00 PM 机器之心

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。为了解决这些难题，来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL（Tool-Integrated Reinforcement Learning），该方法允许模型直接从基座模型开始，通过强化学习自主探索最优工具使用策略，而非受限于预定义的工具使用模式。

4/1/2025 6:48:00 PM 机器之心

TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标，推动小目标检测技术发展

项目地址：：、自动驾驶、夜间搜救等场景中，小目标检测（如远处行人、微型无人机）一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。现有数据集多聚焦单一模态（可见光或红外成像），且目标尺寸偏大、场景单一，难以满足实际需求，针对可见光-红外双模态（Visible-Thermal, RGBT）小目标检测的研究却鲜有突破。为了填补这一空白，国防科技大学团队最新发布RGBT-Tiny基准数据集和SAFit评价指标，填补领域空白，为RGBT小目标检测提供了一个全新的基准和评估工具。

4/1/2025 2:43:00 PM 新闻助手

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。

4/1/2025 11:54:00 AM 机器之心

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%论文链接：：：：：不同于现阶段使用 MoE 架构的原始动机，ChartMoE 的目标不是扩展模型的容量，而是探究 MoE 这种 Sparse 结构在下游任务上的应用，通过对齐任务来增强模型对图表的理解能力，同时保持在其他通用任务上的性能。不同于之前依赖 ramdom 或 co-upcycle 初始化的方法，ChartMoE 利用多样的对齐任务进行专家初始化。

4/1/2025 11:49:00 AM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉