工程

大神爆肝一个月，复刻DeepMind世界模型，300万参数就能玩实时交互像素游戏

还记得 DeepMind 的 Genie 3 世界模型吗？它首次让世界模型真实地模拟了真实世界。最近，X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想，开发出了 TinyWorlds，一个仅 300 万参数的世界模型，能够实时生成可玩的像素风格环境，包括 Pong、Sonic、Zelda 和 Doom。

9/28/2025 6:46:00 PM 机器之心

下一代推荐系统长这样，Meta最新研究RecoWorld，从「猜你喜欢」到「听你指令」

9/28/2025 6:41:00 PM 机器之心

RLHF与RLVR全都要，陈丹琦团队最新力作将推理能力拓展到通用智能

思考自身行为的后果，并在必要时进行修正 —— 这是人类智慧的核心特征之一。一个月前，我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后，会离开普林斯顿，全职加入 Thinking Machines Lab。

9/28/2025 1:11:00 PM 机器之心

登上NeurIPS，Genesis开创无需OCC引导的多模态生成新范式，在视频与激光雷达指标上达到SOTA水平

由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis。该算法只需基于场景描述和布局（包括车道线和 3D 框），就可以生成逼真的图像和点云视频。论文题目：Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency论文链接：链接：xiaomi-research/genesisGenesis 采用两阶段架构：第一阶段基于透视图投影的布局和场景描述等条件，利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征；第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间，并结合场景描述和布局等条件，学习 2D 自编码器编码的点云特征。

9/28/2025 1:00:00 PM 机器之心

OpenAI研究大模型对GDP贡献，三大行业已能代替人类，并自曝不敌Claude

AI 的颠覆近在眼前，奥特曼不是乱说的。时至今日，我们已见过太多大模型的评估方法。比如涵盖了数十个学科的考试式问题的学术基准 MMLU，还有 SWE-Bench （软件工程错误修复任务）、 MLE-Bench （机器学习工程任务，例如模型训练和分析）和 Paper-Bench （对研究论文的科学推理和评论）这类更具应用性的评估，以及基于市场的评估 SWE-Lancer。

9/27/2025 8:46:00 PM 机器之心

规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰

张昊然，上海交通大学人工智能学院的博士一年级学生，主要研究兴趣为大模型推理和可信人工智能。去年 12 月，OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险，大模型不再止于简单拒绝，而是将规范意识融入思考过程，主动识别边界，清楚哪些可以回应，哪些必须避免。

9/27/2025 8:44:00 PM 机器之心

Agentic Coding表现创新高，全新KAT系列模型上榜SWE-Bench

近期，快手 Kwaipilot 团队推出了 KAT 系列两款突破性 Agentic Coding 大模型：开源 32B 参数模型 KAT-Dev-32B 与闭源旗舰模型 KAT-Coder。这两款模型在 Code Intelligence 领域分别体现出轻量级的超强表现和极致性能。其中，在 SWE-Bench Verified 上，KAT-Dev-32B 展现出强劲性能并取得了 62.4% 的解决率，在所有不同规模的开源模型中排名第 5。

9/26/2025 7:28:00 PM 机器之心

IEEE TPAMI 2025 | 北京大学提出分布驱动的终身学习范式，用结构建模解决灾难性遗忘

近日，北京大学王选计算机研究所周嘉欢助理教授与彭宇新教授合作在人工智能重要国际期刊 IEEE TPAMI 发布一项最新的研究成果：DKP （Distribution-aware Knowledge Aligning and Prototyping for Non-exemplar Lifelong Person Re-Identification）。该工作针对终身学习中的灾难性遗忘问题，提出分布建模引导的知识对齐与原型建模框架，不仅有效增强了对历史知识的记忆能力，也提升了模型的跨域学习能力。本文的第一作者为北京大学北京大学王选计算机研究所助理教授周嘉欢，通讯作者为北京大学王选计算机研究所教授彭宇新。

9/26/2025 6:55:00 PM 机器之心

理想i6正式发布：统一价24.98万元，续航720公里

9 月 26 日，理想汽车正式发布新形态五座 SUV—— 理想 i6。新车全国统一零售价 24.98 万元，并将于 9 月 27 日起正式开启交付。 “年轻，就应该去拥有和创造最好的产品。

9/26/2025 5:06:00 PM 新闻助手

创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化

AI 能动性的时代要求系统不仅能思考，更要能干活：包括协同编程（人机协作开发）和自动化科学研究。 LIMI 仅用 78 个样本就超越 GPT-5 达 14.1%，并发现了能动性效率原则： AI 能动性不仅来源于数据丰富性，更来自于战略性构建。本文来自于上海创智学院和上海交大刘鹏飞老师团队，团队专注于构建最前沿 AI 系统。

9/26/2025 4:53:00 PM 机器之心

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视觉与文本信息之间存在严重不对齐问题，制约了模型在复杂几何推理任务上的表现。来自 UIUC 的作者团队的研究提出了一种基于强化学习与可验证奖励 RLVR 数据生成与优化框架 ——Geo-Image-Textualization，并发布了首个完全对齐的高质量几何图像 - 文本数据集 GeoReasoning-10K，包含 1 万对精心构建的图像与描述。

9/25/2025 11:35:00 PM 机器之心

NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了，代码已开源

TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器，能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染，同时具备良好的时序一致性和低计算成本开销，使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real 的数据增强，帮助获得具身智能训练所需的海量高质量数据。它是如何实现的呢？本文将为你揭秘 TC-Light 背后的黑科技！

9/25/2025 6:22:00 PM 机器之心

具身智能从此「边听边说」，智源研究院开源原生全双工语音大模型RoboBrain-Audio

语音交互作为人机通信的关键接口，长期以来受限于高延迟、低自然度的交替式对话架构。为突破这一瓶颈，北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学，正式发布 RoboBrain-Audio（FLM-Audio） —— 首个支持 “自然独白双训练范式” 的原生全双工语音对话大模型。在一段自然对话音频中，用户连续提出多个不同问题，并多次在模型回答过程中打断。

9/25/2025 11:47:00 AM 机器之心

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速，AIGC生图的高效后门防御

本文的第一作者翟胜方和共同第一作者李嘉俊来自北京大学，研究方向为生成式模型安全与隐私。其他合作者分别来自新加坡国立大学、清华大学、浙江大学和弗吉尼亚理工大学。随着 AIGC 图像生成技术的流行，后门攻击给开源社区的繁荣带来严重威胁，然而传统分类模型的后门防御技术无法适配 AIGC 图像生成。

9/24/2025 5:31:00 PM 机器之心

对抗协作+原型学习！深北莫FedPall开源，联邦学习破局特征漂移，准确率登顶SOTA

本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生，主要研究方向为联邦学习，多专家大模型，多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕业于香港大学计算机科学专业，研究领域为分布式智能，包括分布式系统、分布式机器学习和大规模智能。

9/24/2025 3:57:00 PM 机器之心

庞若鸣还有苹果论文？改善预训练高质量数据枯竭困境

数月前，苹果基础模型团队负责人、杰出工程师庞若鸣（Ruoming Pang）离职加入 Meta。扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队。根据庞若鸣的领英信息，他已在 Meta 工作了大约三个月的时间。

9/23/2025 1:22:00 PM 机器之心

超越免训练剪枝：LightVLA引入可微分token剪枝，首次实现VLA模型性能和效率的双重突破

本文共同第一作者蒋体通，清华大学直博五年级学生，研究方向是VLA、自动驾驶和人机交互等。共同第一作者蒋雪枫，中国科学院计算技术研究所直博五年级学生，研究方向聚焦弱监督学习，多模态大模型应用和生成式自动驾驶等。本文通讯作者朗咸朋，理想汽车智能驾驶副总裁。

9/23/2025 1:18:00 PM 机器之心

无需训练，即插即用：西湖大学发布世界模型WorldForge，让普通视频模型秒变「世界引擎」

自 Sora 亮相以来，AI 视频的真实感突飞猛进，但可控性仍是瓶颈：模型像才华横溢却随性的摄影师，难以精准执行 “导演指令”。我们能否让 AI 做到：仅凭一张静态照片，就能 “脑补” 出整个 3D 空间，生成一段围绕主体的 360° 环绕视频？现有的视频能否进行重新运镜，实现推、拉、摇、移等复杂的电影级镜头调度？

9/23/2025 11:25:00 AM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉