工程

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

自 2014 年提出以来，Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位，帮助模型在海量数据下保持稳定并实现较快收敛。随着模型规模迅速扩大，预训练已成为计算密集型任务的典型代表，在大模型研发中往往是最主要的计算开销。在这种背景下，优化器的设计直接关系到收敛速度与计算成本。

9/7/2025 4:23:00 PM

机器之心

字节跳动Seed推出「机器人大脑」Robix：让机器人学会思考、规划与灵活互动

近日，字节跳动 Seed 团队发布了最新的机器人研究成果——Robix，一个旨在提升机器人思考、规划与灵活交互能力的「机器人大脑」。标题：Robix: A Unified Model for Robot Interaction, Reasoning and PlanningArXiv：：，通用机器人在处理复杂、长程任务时，往往因依赖 “模块化” 拼接的设计而显得僵化。 Robix 的核心亮点在于其一体化架构：将推理、任务规划与人机交互无缝整合到单个端到端多模态模型中。

9/7/2025 4:19:00 PM

机器之心

任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式

本文的主要作者来自北京航空航天大学、清华大学、香港大学和 VAST。本文的第一作者为北京航空航天大学硕士生黄泽桓。本文的通讯作者为北京航空航天大学盛律教授与 VAST 公司首席科学家曹炎培博士。

9/6/2025 9:17:00 PM

机器之心

PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报

许多研究者在参加学术会议前，常常会因为制作海报所耗费的大量时间和精力而感到困扰。一张精心设计的海报是高效的学术交流媒介，但现有自动化方法普遍忽略了核心设计原则，导致生成的海报仍旧需要大量人工调整。为解决这一痛点，来自纽约州立大学石溪分校、纽约大学、不列颠哥伦比亚大学和浙江大学的联合团队推出了 PosterGen，一个能将论文 PDF 直接转化为设计精良、完全可编辑的 PPTX 格式学术海报的多智能体框架。

9/4/2025 5:47:00 PM

机器之心

SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统

近日，快手与清华大学孙立峰团队联合发表论文《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》，被计算机网络领域的国际顶尖学术会议 ACM SIGCOMM 2025 录用。该论文提出了一种创新的视频流优化系统 —— 灵犀系统，这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。论文：《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》论文地址： SIGCOMM 是全球计算机网络领域历史最悠久、声望最高的旗舰学术会议之一。

9/4/2025 12:51:00 PM

机器之心

让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通

想象一下这样的早晨：你还在被窝里，你的机器人管家已经在厨房里忙碌了起来：它熟练地导航到燕麦罐、可可球、牛奶，逐一抓取并添加到碗中，最后，它将一碗搭配好的营养早餐送到你的面前，整个过程行云流水，无需任何人工干预。 BSC-Nav 在真实环境中执行「制作早餐」的移动操作任务这并非科幻片中的桥段，而是来自清华大学与北京航空航天大学团队的最新成果——BSC-Nav 的真实演示。通过模仿生物大脑构建、维护空间记忆的原理，研究团队让智能体拥有了前所未有的「空间感」。

9/4/2025 11:48:00 AM

机器之心

ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所，第一作者为博士生徐铸，通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、CVPR、ICML 等顶会上有多项代表性成果发表，多次荣获国内外多模态理解预生成竞赛冠军，和国内外知名高校、科研机构广泛开展合作。本文主要介绍来自该团队的最新论文：TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。

9/3/2025 4:30:00 PM

机器之心

IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作

本文的共同第一作者为新加坡国立大学博士生陈浩楠，南京大学研究助理 / 本科生李骏骁和北京大学博士吴睿海。合作者为刘益伟、侯懿文、徐志轩、郭京翔、高崇凯、卫振宇、许申思、黄嘉祺。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。

9/3/2025 11:26:00 AM

机器之心

苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？

在这场以大型语言模型（LLM）为核心的 AI 浪潮中，苹果似乎一直保持着低调，很少出现在技术报道的前沿。尽管如此，时不时地，该公司也能拿出一些非常亮眼的研究成果，比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。近日，苹果与牛津大学和香港城市大学合作的一项新研究吸引了不少关注。

9/2/2025 5:44:00 PM

机器之心

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。为解决这些问题，华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析（SRCA）框架 —— 在推理步骤间引入 “检查点”，并集成两大核心策略：（1）答案聚类搜索（Answer-Clustered Search）：根据中间检查点答案对推理路径进行分组，在保证质量的同时维持路径多样性；（2）检查点候选增强（Checkpoint Candidate Augmentation）：利用所有中间答案辅助最终决策。

9/2/2025 3:09:00 PM

机器之心

AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能

谷歌回归搜索老本行，这一次，它要让 AI 能像人一样「看见」网页。这是谷歌前不久在 Gemini API 全面上线的 URL Context 功能（5 月 28 日已在 Google AI Studio 中推出），它使 Gemini 模型能够访问并处理来自 URL 的内容，包括网页、PDF 和图像。 Google 产品负责人 Logan Kilpatrick 表示这是他最喜欢的 Gemini API 工具，并推荐大家把这个工具设置为默认开启的「无脑选项」。

9/2/2025 12:01:00 PM

机器之心

自搜索强化学习SSRL：Agentic RL的Sim2Real时刻

本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰，研究方向是 Agent 以及强化学习；通讯作者为清华大学周伯文教授。此前的 Agentic Search RL 任务大多采用真实搜索引擎，导致训练效率低，速度慢，稳定性差。

9/2/2025 10:15:00 AM

机器之心

DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态

本研究由腾讯混元和中科院自动化所联合研发，团队成员包括 Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng背景：多模态大模型的思考困境当前，业界顶尖的大模型正竞相挑战“过度思考”的难题，即无论问题简单与否，它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换，还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。它们距离真正意义上的“智能思考”仍有距离。

9/1/2025 2:14:00 PM

机器之心

首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源

清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf：首个面向具身智能的“渲训推一体化”大规模强化学习框架。人工智能正在经历从 “感知” 到 “行动” 的跨越式发展，融合大模型的具身智能被认为是人工智能的下一发展阶段，成为学术界与工业界共同关注的话题。在大模型领域，随着 o1/R1 系列推理模型的发布，模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习（Reinforcement Learning, RL）。

9/1/2025 11:41:00 AM

机器之心

科研智能体「漫游指南」—助你构建领域专属科研智能体

欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。当前基于大语言模型（LLM）的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展，催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差，对科研智能体系统的设计、训练以及验证产生着较大阻碍。

9/1/2025 11:03:00 AM

机器之心

LLM也具有身份认同？当LLM发现博弈对手是自己时，行为变化了

LLM 似乎可以扮演任何角色。使用提示词，你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过：LLM 是否存在某种身份认同？近日，哥伦比亚大学与蒙特利尔理工学院的两位研究者 Olivia Long 和 Carter Teplica 通过一个研究项目在一定程度上揭示了这个问题的答案。

8/31/2025 6:08:00 PM

机器之心

AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准

你有没有想过，AI 不仅能记住过去的一切，还能预见未知的未来？想象一下，让 AI 预测下周的股价、下个月的票房冠军、甚至下届世界杯的赢家……这听起来像科幻片，但如今，它已经成为现实中一场「极限挑战」。最近，一场专门考验 AI「预言」能力的考试——FutureX 动态评测基准正式发布。

8/31/2025 6:03:00 PM

机器之心

AI Agent组团搞事：在你常刷的App里，舆论操纵、电商欺诈正悄然上演

本文作者来自上海交通大学和上海人工智能实验室，核心贡献者包括任麒冰、谢思韬、魏龙轩，指导老师为马利庄老师和邵婧老师，研究方向为安全可控大模型和智能体。在科幻电影中，我们常看到 AI 反叛人类的情节，但你有没有想过，AI 不仅可能「单打独斗」，还能「组团作恶」？近年来，随着 Agent 技术的飞速发展，多 Agent 系统（Multi-Agent System，MAS）正在悄然崛起。

8/29/2025 1:31:00 PM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评借助 AgentCore Memory 为智能体应用添加记忆功能深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 RAG AI视频大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成生成式AI 场景 DeepMind 深度学习特斯拉 AI模型架构 MCP Transformer 亚马逊编程视觉预测