理论

推理与操控能力双提升！具身机器人双系统VLA模型新突破

推理与操控能力双提升！具身机器人双系统VLA模型新突破

让机器人学会聪明且快速精准执行，一直是机器人操控领域的难题。为了解决这个问题，香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow（FiS-VLA），即一个统一的双系统VLA模型。它通过将慢系统2最后几层的Transformer模块重新构建为一个高效的执行模块，用作快系统1，从而在一个模型中实现了快慢系统融合。

7/10/2025 2:55:12 PM

扩散语言模型写代码！速度比自回归快10倍

扩散语言模型写代码！速度比自回归快10倍

谁说扩散模型只能生成图像和视频？现在它们能高质量地写代码了，速度还比传统大模型更快！ Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。

7/10/2025 2:54:13 PM

MCP协议曝出大漏洞：会泄露整个数据库

MCP协议曝出大漏洞：会泄露整个数据库

所有使用MCP协议的企业注意：你的数据库可能正在“裸奔”！最新研究显示，该协议存在重大漏洞，攻击者可利用LLM的指令/数据混淆漏洞直接访问数据库。如果用户提供的“数据”被精心伪装成指令，模型很可能会将其作为真实指令执行。

7/10/2025 2:53:40 PM

Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

Meta发布40页报告，具身智能的下一步是「心智世界模型」：能听，能看，能理解，会共情

最近Meta动作频频。一边是老板小扎亲自下场，豪掷一亿美金挖人。另一边，自家具身智能研究同样也憋了个大的，40页长文报告。

7/10/2025 2:53:12 PM

下一代AI需要「思想微积分」！华人团队重磅揭秘，AI方法论三连发

下一代AI需要「思想微积分」！华人团队重磅揭秘，AI方法论三连发

AI的时代洪流滚滚向前，我们每个人都身处其中，感受着它的光荣与梦想，也承担着它的迷茫与代价。一方面，是资本市场的狂欢盛宴。 OpenAI的估值冲向千亿美金，英伟达的市值超越众多老牌巨头，任何与「AI」沾边的概念都能轻易点燃投资者的热情。

7/10/2025 2:52:45 PM 新智元

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型后训练阶段，强化学习已成为提升模型能力、对齐人类偏好，并有望迈向 AGI 的核心方法。然而，奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。目前，主流的奖励建模方法包括 “基于偏好的奖励建模”（Preference-based Reward Modeling）和 “基于规则的验证”（Rule-based Verifier）两种方法。

7/10/2025 2:51:29 PM

VLA统一架构新突破：自回归世界模型引领具身智能

VLA统一架构新突破：自回归世界模型引领具身智能

本文来自：王宇琪，中国科学院自动化所博士，研究方向为世界模型，自动驾驶感知与决策等，在 CVPR、NeurIPS、ICCV、ECCV、ICLR 等顶级会议上发表过多篇论文。王鑫龙团队，北京智源研究院，研究方向为原生多模态大模型，Emu 系列工作核心负责人。张兆翔团队，中国科学院自动化研究所，研究方向涵盖世界模型、视觉生成与重建、自动驾驶、具身智能等。

7/10/2025 2:50:46 PM

ICML 2025 | 给AI装上「智能升级插件」！阿里安全-清华大学D-MoLE让模型在持续学习中动态进化

ICML 2025 | 给AI装上「智能升级插件」！阿里安全-清华大学D-MoLE让模型在持续学习中动态进化

本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛，研究方向为多模态大语言模型、自动机器学习和图机器学习。主要合作者为来自阿里巴巴集团安全部的樊珈珮、黄龙涛和薛晖。通讯作者为清华大学的朱文武教授、王鑫副研究员。

7/10/2025 2:50:24 PM

硅谷最贵华人诞生！上交校友庞若鸣薪酬飙破2亿美元，碾压余家辉、库克

硅谷最贵华人诞生！上交校友庞若鸣薪酬飙破2亿美元，碾压余家辉、库克

余家辉之外，硅谷一夜之间，又诞生了一位华人AI巨星。这次，最高薪酬纪录被刷新，从1亿美金直接飙升至超2亿美金！他便是——庞若鸣，前苹果AI/ML基础模型团队负责人。

7/10/2025 2:49:05 PM

Grok 4 发布，地表最强 AI，所有学术领域达到博士水平

Grok 4 发布，地表最强 AI，所有学术领域达到博士水平

7月9日晚间，Elon Musk正式发布他迄今为止最强的人工智能模型：Grok 4。这款模型由他领导的xAI团队打造，被Musk本人形容为“大爆炸级别的智能进化”。在推特上，官方账号称：Grok 4是“地表最强”（世界上最强大）的AI模型。

7/10/2025 2:42:28 PM

8小时处理300万细胞数据，复旦&上交研发双分支架构模型，登Nature子刊

8小时处理300万细胞数据，复旦&上交研发双分支架构模型，登Nature子刊

编辑丨%在组织切片的微观世界里，基因表达的空间分布藏着解开生物奥秘的钥匙 —— 胚胎如何发育出肝脏、癌细胞为何侵袭转移，答案往往藏在基因「在哪里表达」的动态变化中。但传统空间组学方法只能捕捉单一切片的基因表达量，却无法识别不同条件下基因空间位置变化的关键信号。（如 Sepal 算法对差异空间表达模式基因的 F1 分数仅 41%）针对这些问题，复旦大学与上海交通大学的团队提出了 River 框架，通过双分支预测架构和事后归因策略，根据基因（或者其他特征）对条件差异的贡献进行排名。

7/10/2025 2:30:00 PM ScienceAI

饿了么联创悄悄做了一家 AI 公司，专攻效率工具

饿了么联创悄悄做了一家 AI 公司，专攻效率工具

前饿了么联合创始人汪渊，我本以为他已经退休去享受生活了。这种级别的创业者，早就实现财务自由。早些年有朋友在饿了么，经常跟我讲饿了么创始人“四大饿”跌宕起伏的故事。

7/10/2025 11:23:24 AM 阿颖

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

「Tokenization（分词）是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」近日，Mamba 作者、CMU 助理教授、Cartesia AI 首席科学家 Albert Gu 撰写了一篇新博客，探讨了状态空间模型（SSM）和 Transformer 之间的权衡，并提出了这样一种观点。这篇博客改编自 Albert Gu 过去一年来多次进行的一场演讲。

7/10/2025 10:48:00 AM 机器之心

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

OctoThinker：借“中期训练”之力，缩小 Llama 和 Qwen 模型的差距

大家好，我是肆〇柒，大型语言模型（LLM）通过链式思考（CoT）进行深度推理，并借助大规模强化学习（RL）在复杂任务（如竞赛级数学问题解决）上取得了显著进展。 OpenAI 的 o1、o3 等模型在数学推理任务上表现卓越，这些模型通常采用多层神经网络架构，通过大规模数据训练捕捉语言的复杂模式，从而实现高效的文本生成和推理。而 DeepSeek-R1-Zero 等模型在基础语言模型上直接应用大规模 RL 也展现了有趣的推理行为。

7/10/2025 10:25:23 AM 肆零柒

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

WebSailor 突破边界：助力开源智能体跨越复杂推理 “天花板”

大家好，我是肆〇柒，自从互联网时代开启以来，人类社会经历了多次信息技术变革，而互联网犹如一把双刃剑。一方面，它以每两年数据量翻一番的惊人速度，为人类打开了通往海量知识的大门；另一方面，也向我们的认知能力发起了前所未有的挑战。当我们面对无边无际的信息数据时，人类有限的记忆容量、脆弱的注意力稳定性，以及线性单一的探索路径，无疑成为了制约我们高效获取精准信息的瓶颈。

7/10/2025 10:21:19 AM 肆零柒

谷歌 Gemini 人工智能助手即将登陆 Wear OS 智能手表，全面取代 Google Assistant

谷歌 Gemini 人工智能助手即将登陆 Wear OS 智能手表，全面取代 Google Assistant

7 月 9 日消息，谷歌今日宣布，将在未来几周内把 Gemini 人工智能助手引入运行 Wear OS4 及更新系统的智能手表，涵盖 Pixel、三星、OPPO、一加和小米等品牌。这一举措是谷歌全面用 Gemini 取代 Google . 据IT之家了解，用户可通过“Hey Google”语音指令、长按手表侧边按钮或点击屏幕上的 Gemini 应用图标来启动该功能。

7/10/2025 9:35:58 AM 远洋

微软大裁员不是终点，而是AI筛选人才的起点

微软大裁员不是终点，而是AI筛选人才的起点

“我们都需要使用 AI 工具。 ” 在裁员风暴席卷后的员工会议上，微软美洲中小企业销售主管特拉维斯・沃尔特的话像一道命令。他推荐的内部 AI 工具，号称能帮销售人员自动生成方案、抓取客户信息，但潜台词却再清晰不过：学不会这些，下一波裁员名单上可能就有你。

7/10/2025 9:31:43 AM

微软开源新版Phi-4：推理效率暴涨10倍，笔记本可运行

微软开源新版Phi-4：推理效率暴涨10倍，笔记本可运行

今天凌晨，微软在官网开源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning。 mini-flash版延续了Phi-4家族参数小性能强的特点，是专门针对那些受算力、内存和延迟限制场景设计的，单个GPU可运行，适合笔记本、平板电脑等边缘设备。与前一个版本相比，mini-flash使用了微软自研的创新架构SambaY，推理效率暴涨了10倍，延迟平均降低了2—3倍，整体推理性能实现了大幅度提升。

7/10/2025 9:14:37 AM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉