工程

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD

本论文主要作者来自小红书 AIGC 团队（Dynamic-X-Lab），Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队，致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心，围绕文生图（t2i）、图像生成（i2i）、图像转视频（i2v）和风格迁移加速等方向展开研究，并通过完整的开源方案分享给开发者与研究者社区。基于一致性模型（Consistency Models, CMs）的轨迹蒸馏（Trajectory Distillation）为加速扩散模型提供了一个有效框架，通过减少推理步骤来提升效率。

8/4/2025 3:27:00 PM

机器之心

马斯克：研究者不存在了，只有工程师；LeCun：大错特错

长期以来，科学家（研究者）和工程师的角色定位泾渭分明。这种分野不仅存在于学术界，也深植于大众文化之中。比如在美剧《生活大爆炸》中，物理学家谢尔顿・库珀就时常以「真正的科学家」自居，对身为工程师的霍华德・沃洛维兹冷嘲热讽，两者的职业差异甚至成为该喜剧的重要素材。

8/4/2025 10:17:00 AM

机器之心

ICML spotlight | 一种会「进化」的合成数据！无需上传隐私，也能生成高质量垂域数据

张剑清是一名上海交通大学在读博士生，获中国人工智能学会「青托」、吴文俊人工智能荣誉博士及国家奖学金。在代码大模型、合成数据集进化生成、联邦学习与推荐系统方向取得系列成果，主要关注其中的垂域自适应、模型融合、模型个性化主题，于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等发表9篇CCF-A一作论文，主导并开源了PFLlib、HtFLlib、EvolveGen等项目，曾在字节跳动、清华AIR、KAUST、腾讯等机构实习交流。数据短缺问题随着大模型的高速发展，日益加剧。

7/11/2025 8:28:00 PM

机器之心

微软研究院BioEmu登上Science，用生成式AI重塑蛋白质功能研究

7 月 10 日，微软研究院 AI for Science 团队在《Science》杂志发表了题为「Scalable emulation of protein equilibrium ensembles with generative deep learning」的研究成果。论文：：github.com/microsoft/bioemu模型：：github.com/microsoft/bioemu-benchmarksColabFold： Foundry： BioEmu 的生成式深度学习模型，能够以前所未有的效率和精度模拟蛋白质的构象变化，为理解蛋白质功能机制和加速药物发现打开了新路径。从结构预测到功能模拟：蛋白质研究的下一个前沿近年来，AlphaFold 等模型在蛋白质结构预测方面取得了突破性进展，但这些方法通常只能预测单一静态结构，难以捕捉蛋白质在功能过程中所经历的动态变化。

7/11/2025 4:42:00 PM

机器之心

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时，一项来自北大、北邮和华为的最新研究却反其道而行之，重新审视了深度学习中最基础、最经典的模块——3x3 卷积。他们提出的 DiC (Diffusion CNN)，一个纯卷积的扩散模型，不仅在性能上超越了广受欢迎的 Diffusion Transformer (DiT)，更在推理速度上实现了惊人的提升。这项工作证明了，经过精心设计，简单的卷积网络依然能在生成任务中登峰造极。

7/11/2025 4:37:00 PM

机器之心

Meta为他豪掷2亿美元，上交校友庞若鸣，晒出在苹果的最新论文

这或许是庞若鸣（Ruoming Pang）在苹果参与的最后一篇论文。庞若鸣，苹果基础模型团队负责人、杰出工程师，即将成为 Meta 新成立的超级智能团队的最新成员。他本科毕业于上海交通大学，在谷歌工作了 15 年，此后加入苹果。

7/10/2025 7:09:00 PM

机器之心

从「塑料人」到「有血有肉」：角色动画的物理革命，PhysRig实现更真实、更自然的动画角色变形效果

作者：张昊，伊利诺伊大学香槟分校博士生，研究方向为 3D/4D 重建、生成建模与物理驱动动画。目前在 Snap 担任研究实习生，曾于 Stability AI 和上海人工智能实验室实习。 PhysRig 由 UIUC 与 Stability AI 联合完成，旨在推动角色动画迈向更真实、可控的物理解法。

7/10/2025 5:02:00 PM

机器之心

人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手

近日，一个「人形机器人做汉堡」的视频火爆全网！这个具备 [主动视觉]、[高精度触觉] 以及 [高自由度灵巧手] 的人形机器人，首次实现了 2.5 分钟连续自主控制，从原材料开始，一步步制作出完整汉堡，并递到你的盘子里。真正让机器人「看得见」、「摸得准」、「动得巧」，未来厨房可能真的不需要人类了！

7/10/2025 2:23:00 PM

机器之心

他47岁转方向，一举解决了球体堆积领域内最大的未解问题

在数学领域里，对于最优模式的探索永无止境，球体填充问题也不例外，它旨在尽可能高效地将球体塞进一个（高维）盒子里。几个世纪以来，它一直吸引着数学家们，并在密码学、远程通信等领域有着重要的应用。它看似简单，实则微妙。

7/10/2025 1:27:00 PM

机器之心

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为「革命的工具」，需要采用「通专融合 AGI」方式。大模型的突破性能力逐步改变科学研究的模式，而大模型在科学领域的深度应用亟需科学的评测支撑。现有科学评测面临着两大痛点：现有测试多聚焦知识记忆，而真实科研需要从原始科学数据感知到复杂推理的全链条能力；天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。

7/10/2025 10:20:00 AM

机器之心

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

现在的世界模型，值得批判。我们知道，大语言模型（LLM）是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。

7/9/2025 3:44:00 PM

机器之心

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校（UC Riverside）、密歇根大学（University of Michigan）、威斯康星大学麦迪逊分校（University of Wisconsin–Madison）、德州农工大学（Texas A&M University）的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。 UniOcc 融合真实世界（nuScenes、Waymo）与仿真环境（CARLA、OpenCOOD）的多源数据，统一体素（voxel）格式与语义（semantic）标签，首次引入体素级前后向运动流标注，并支持多车协同占位预测与推理。为摆脱伪标签（pseudo-label）评估限制，UniOcc 设计了多项免真值（ground-truth-free）指标，用于衡量物体形状合理性与时序一致性。

7/9/2025 3:36:00 PM

机器之心

给你一群顶尖AI，如何组队才能发挥最大战力？UIUC用一个新的多智能体协作基准寻找答案

朱昆仑是伊利诺伊大学香槟分校（UIUC）计算机科学系的研究生，现隶属于Ulab与Blender Lab，曾在斯坦福大学、卡内基梅隆大学（CMU）与蒙特利尔学习算法研究所（Mila）进行学术访问。他的研究方向包括大语言模型（LLM）智能体、多智能体系统、AI科学家与工具学习等，在ICML、ICLR、ACL、TMLR等顶级会议与期刊发表论文10余篇，总引用超过1500次。他积极参与多个广泛影响的开源项目，包括 OpenManus(RL)、ChatDev（MACNET）、ToolBench 等，累计在 GitHub 上获得超过 5万 stars。

7/9/2025 12:46:00 PM

机器之心

长思维链里的推理步骤，哪些最关键？三招锁定LLM的「命门句子」

思维链里的步骤很重要，但有些步骤比其他步骤更重要，尤其是在一些比较长的思维链中。找出这些步骤，我们就可以更深入地理解 LLM 的内部推理机制，从而提高模型的可解释性、可调试性和安全性。但是，这些步骤没有那么好找，因为每个生成的 token 都依赖于之前的所有 token，其计算难以分解。

7/9/2025 10:17:00 AM

机器之心

还在为AI数据发愁？张文涛和鄂维南院士团队推出Data-centric AI系统

1. 基本介绍近年来，大模型发展主要由大型科技公司主导，其领先的核心在于规模庞大且高质量的数据资源。然而，这些公司通常并不公开其原始数据及数据处理工具，使得学术界在大模型训练数据的构建与优化方面难以追赶，受制甚深。

7/8/2025 5:59:00 PM

机器之心

500万视频数据集+全新评测框架！北大开源主体一致性视频生成领域新基建OpenS2V-Nexus，生成视频「像」又「自然」

想让 AI 能「看着你的自拍就生成一致且自然的短视频」吗？这就是 Subject-to-Video（S2V）生成要解决的问题：让视频生成不仅对齐文本，还能准确保留指定人物或物体的特征，让生成的视频既「像」又「自然」。这一能力对于短视频生成、虚拟人、AI 剪辑等都有巨大意义。

7/8/2025 5:51:00 PM

机器之心

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

线性循环模型（如 Mamba）和线性注意力机制都具备这样一个显著优势：它们能够处理极长的序列，这一能力对长上下文推理任务至关重要。事实上，这正是它们相较于 Transformer 的关键优势 —— 后者受限于有限的上下文窗口，且在序列长度上的计算复杂度是二次的，成为性能瓶颈。过去，循环模型面临的主要问题是性能不足：在处理短序列时，它们的表现往往不如 Transformer。

7/8/2025 1:07:00 PM

机器之心

ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA，看o3、R1哪家强

本文作者来自于清华大学和上海 AI Lab，通讯作者为清华大学丁宁助理教授和清华大学讲席教授、上海 AI Lab 主任周伯文教授。论文标题：MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding论文：：： ICML 2025 接收，并且被 DeepMind MedGemma 采用为评估基准。基准地址：？

7/8/2025 1:01:00 PM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评借助 AgentCore Memory 为智能体应用添加记忆功能深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 RAG AI视频大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成生成式AI 场景 DeepMind 深度学习特斯拉 AI模型架构 MCP Transformer 亚马逊编程视觉预测

工程

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD

马斯克：研究者不存在了，只有工程师；LeCun：大错特错

ICML spotlight | 一种会「进化」的合成数据！无需上传隐私，也能生成高质量垂域数据

微软研究院BioEmu登上Science，用生成式AI重塑蛋白质功能研究

告别Transformer！北大、北邮、华为开源纯卷积DiC：3x3卷积实现SOTA性能，比DiT快5倍！

Meta为他豪掷2亿美元，上交校友庞若鸣，晒出在苹果的最新论文

从「塑料人」到「有血有肉」：角色动画的物理革命，PhysRig实现更真实、更自然的动画角色变形效果

人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手

他47岁转方向，一举解决了球体堆积领域内最大的未解问题

真实科研水平集体不及格！全新基准SFE给主流多模态LLM来了波暴击

「世界模型」也被泼冷水了？邢波等人揭开五大「硬伤」，提出新范式

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

给你一群顶尖AI，如何组队才能发挥最大战力？UIUC用一个新的多智能体协作基准寻找答案

长思维链里的推理步骤，哪些最关键？三招锁定LLM的「命门句子」

还在为AI数据发愁？张文涛和鄂维南院士团队推出Data-centric AI系统

500万视频数据集+全新评测框架！北大开源主体一致性视频生成领域新基建OpenS2V-Nexus，生成视频 「像」 又 「自然」

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

ICML 2025 | 清华、上海AI Lab提出专家级医学基准MedXpertQA，看o3、R1哪家强

500万视频数据集+全新评测框架！北大开源主体一致性视频生成领域新基建OpenS2V-Nexus，生成视频「像」又「自然」