AI在线 AI在线

工程

ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA

论⽂标题:SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning作者:Zhewei Dai, Shilei Zeng, Haotian Liu, Xurui Li, Feng Xue, Yu Zhou论⽂链接::⼯业异常⽣成迎来「全能选⼿」当前先进制造领域的产线良率往往超过 98%,因此异常样本(也称为缺陷样本)的搜集和标注已成为⼯业质检的核⼼瓶颈,过少的异常样本显著限制了模型的检测能⼒,利⽤⽣成模型扩充异常样本集合正逐渐成为产业界的主流选择,但现有⽅法存在明显局限:要么仅能完成单⼀任务(如只⽣成异常或正常产品),要么需针对不同异常类型单独建模,不仅⽣成能⼒受限,还因依赖⼤量专⽤模型难以适应复杂场景。 为此,华中科技⼤学慢⼯团队(SLOW Team)提出统⼀的少样本⼯业⽣成模型 SeaS。 该模型依托 U-Net 的差异化学习能⼒,精准捕捉正常产品的细微变化与异常区域的丰富差异,仅需要 1-3 张训练样本,通过单⼀模型即可同步实现多样化异常⽣成、全局⼀致的正常产品合成及精确异常掩码标注⽣成,为⼯业场景⽣成任务建⽴了新的技术基准,有效推动了相关领域的技术进步。
8/6/2025 1:04:00 PM
机器之心

北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向

本项目的领导者为李萌,于 2022 年加入北京大学人工智能研究院和集成电路学院创建高效安全计算实验室。 他曾任职于美国 Facebook 公司的 Reality Lab,作为技术主管主导虚拟现实和增强现实设备中的高效 AI 算法和芯片研究。 他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础,曾获 DAC 生成式人工智能系统设计竞赛第一名、AICAS 大模型系统设计竞赛第一名、CCF 集成电路 Early Career Award、欧洲设计自动化协会最佳博士论文等一系列奖项。
8/6/2025 10:32:00 AM
机器之心

南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?

世界是动态变化的。 为了理解这个动态变化的世界并在其中运行,AI 模型必须具备在线学习能力。 为此,该领域提出了一种新的性能指标 —— 适应性遗憾值(adaptive regret),其定义为任意区间内的最大静态遗憾值。
8/5/2025 1:28:00 PM
机器之心

全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式

第一作者崔巍,北京人形机器人创新中心感知算法负责人;共同一作王浩宇,极佳科技算法工程师,项目负责人;通讯作者张强,北京人形机器人创新中心学术委员会主任。 凭借类人化的结构设计与运动模式,人形机器人被公认为最具潜力融入人类环境的通用型机器人。 其核心任务涵盖操作 (manipulation)、移动 (locomotion) 与导航 (navigation) 三大领域,而这些任务的高效完成,均以机器人对自身所处环境的全面精准理解为前提。
8/5/2025 1:21:00 PM
机器之心

3D-R1:让AI理解3D世界的下一步

在人工智能快速发展的今天,我们已逐渐习惯于让 AI 识别图像、理解语言,甚至与之对话。 但当我们进入真实三维世界,如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力? 这正是 3D 视觉语言模型(3D VLM)所要解决的问题。
8/4/2025 8:12:00 PM
机器之心

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。 他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。 基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。
8/4/2025 3:27:00 PM
机器之心

ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据

张剑清是一名上海交通大学在读博士生,获中国人工智能学会「青托」、吴文俊人工智能荣誉博士及国家奖学金。 在代码大模型、合成数据集进化生成、联邦学习与推荐系统方向取得系列成果,主要关注其中的垂域自适应、模型融合、模型个性化主题,于JMLR、NeurIPS、ICML、CVPR、KDD、ICCV、AAAI等发表9篇CCF-A一作论文,主导并开源了PFLlib、HtFLlib、EvolveGen等项目,曾在字节跳动、清华AIR、KAUST、腾讯等机构实习交流。 数据短缺问题随着大模型的高速发展,日益加剧。
7/11/2025 8:28:00 PM
机器之心

微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究

7 月 10 日,微软研究院 AI for Science 团队在《Science》杂志发表了题为「Scalable emulation of protein equilibrium ensembles with generative deep learning」的研究成果。 论文::github.com/microsoft/bioemu模型::github.com/microsoft/bioemu-benchmarksColabFold: Foundry: BioEmu 的生成式深度学习模型,能够以前所未有的效率和精度模拟蛋白质的构象变化,为理解蛋白质功能机制和加速药物发现打开了新路径。 从结构预测到功能模拟:蛋白质研究的下一个前沿近年来,AlphaFold 等模型在蛋白质结构预测方面取得了突破性进展,但这些方法通常只能预测单一静态结构,难以捕捉蛋白质在功能过程中所经历的动态变化。
7/11/2025 4:42:00 PM
机器之心

告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!

当整个 AI 视觉生成领域都在 Transformer 架构上「卷生卷死」时,一项来自北大、北邮和华为的最新研究却反其道而行之,重新审视了深度学习中最基础、最经典的模块——3x3 卷积。 他们提出的 DiC (Diffusion CNN),一个纯卷积的扩散模型,不仅在性能上超越了广受欢迎的 Diffusion Transformer (DiT),更在推理速度上实现了惊人的提升。 这项工作证明了,经过精心设计,简单的卷积网络依然能在生成任务中登峰造极。
7/11/2025 4:37:00 PM
机器之心

Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文

这或许是庞若鸣(Ruoming Pang)在苹果参与的最后一篇论文。 庞若鸣,苹果基础模型团队负责人、杰出工程师,即将成为 Meta 新成立的超级智能团队的最新成员。 他本科毕业于上海交通大学,在谷歌工作了 15 年,此后加入苹果。
7/10/2025 7:09:00 PM
机器之心

从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果

作者:张昊,伊利诺伊大学香槟分校博士生,研究方向为 3D/4D 重建、生成建模与物理驱动动画。 目前在 Snap 担任研究实习生,曾于 Stability AI 和上海人工智能实验室实习。 PhysRig 由 UIUC 与 Stability AI 联合完成,旨在推动角色动画迈向更真实、可控的物理解法。
7/10/2025 5:02:00 PM
机器之心

人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手

近日,一个「人形机器人做汉堡」的视频火爆全网! 这个具备 [主动视觉]、[高精度触觉] 以及 [高自由度灵巧手] 的人形机器人,首次实现了 2.5 分钟连续自主控制,从原材料开始,一步步制作出完整汉堡,并递到你的盘子里。 真正让机器人「看得见」、「摸得准」、「动得巧」,未来厨房可能真的不需要人类了!
7/10/2025 2:23:00 PM
机器之心

他47岁转方向,一举解决了球体堆积领域内最大的未解问题

在数学领域里,对于最优模式的探索永无止境,球体填充问题也不例外,它旨在尽可能高效地将球体塞进一个(高维)盒子里。 几个世纪以来,它一直吸引着数学家们,并在密码学、远程通信等领域有着重要的应用。 它看似简单,实则微妙。
7/10/2025 1:27:00 PM
机器之心

真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为「革命的工具」,需要采用「通专融合 AGI」方式。 大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。 现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在大量未开发的多模态数据分析需求。
7/10/2025 10:20:00 AM
机器之心

「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

现在的世界模型,值得批判。 我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。 由此产生的对话、推理甚至创作能力已经接近人类智力水平。
7/9/2025 3:44:00 PM
机器之心

ICCV 2025 | UniOcc: 自动驾驶占用预测与推理统一数据集及基准平台

来自加州大学河滨分校(UC Riverside)、密歇根大学(University of Michigan)、威斯康星大学麦迪逊分校(University of Wisconsin–Madison)、德州农工大学(Texas A&M University)的团队在 ICCV 2025 发表首个面向自动驾驶语义占用栅格构造或预测任务的统一基准框架 UniOcc。 UniOcc 融合真实世界(nuScenes、Waymo)与仿真环境(CARLA、OpenCOOD)的多源数据,统一体素(voxel)格式与语义(semantic)标签,首次引入体素级前后向运动流标注,并支持多车协同占位预测与推理。 为摆脱伪标签(pseudo-label)评估限制,UniOcc 设计了多项免真值(ground-truth-free)指标,用于衡量物体形状合理性与时序一致性。
7/9/2025 3:36:00 PM
机器之心

给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案

朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算法研究所(Mila)进行学术访问。 他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计在 GitHub 上获得超过 5万 stars。
7/9/2025 12:46:00 PM
机器之心

长思维链里的推理步骤,哪些最关键?三招锁定LLM的「命门句子」

思维链里的步骤很重要,但有些步骤比其他步骤更重要,尤其是在一些比较长的思维链中。 找出这些步骤,我们就可以更深入地理解 LLM 的内部推理机制,从而提高模型的可解释性、可调试性和安全性。 但是,这些步骤没有那么好找,因为每个生成的 token 都依赖于之前的所有 token,其计算难以分解。
7/9/2025 10:17:00 AM
机器之心