AI在线 AI在线

工程

ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

本文作者包括新加坡国立大学的王天一 (第一作者)、程轩昂、Mohan Kankanhalli (通讯作者),和山东大学的刘明慧。 工作动机近些年来,针对深度伪造 (Deepfake) 的主动防御研究角度逐渐受到广泛关注。 在现有工作中,鲁棒水印和半脆弱水印分别在 Deepfake 检测任务取得一定进展,但仍普遍存在如下问题:面对常规图像处理 (如高斯噪声) 时的鲁棒性不稳定。
11/4/2025 11:57:00 AM
机器之心

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

大语言模型(LLM)的「炼丹师」们,或许都曾面临一个共同的困扰:为不同任务、不同模型手动调整解码超参数(如 temperature 和 top-p)。 这个过程不仅耗时耗力,而且一旦模型或任务发生变化,历史经验便瞬间失效,一切又得从头再来。 这种繁琐的试错过程,在许多研发团队的日常沟通中屡见不鲜,正如下图所展示的那样:                图 1:研发人员手动调整解码参数的日常。
11/4/2025 11:27:00 AM
机器之心

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

思维链很有用,能让模型具备更强大的推理能力,同时也能提升模型的拒绝能力(refusal),进而增强其安全性。 比如,我们可以让推理模型在思维过程中对之前的结果进行多轮反思,从而避免有害回答。 然而,反转来了!
11/3/2025 5:04:00 PM
机器之心

NIPS2025|小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。 然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。 此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。
11/3/2025 4:59:00 PM
机器之心

让LLM不再话痨,快手HiPO框架来了

当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P? 」,它却正襟危坐,开始生成一段冗长的推理链:「首先,让我们分析 HiPPO 这个词,河马的英文单词为 hippo,河马是一种半水生哺乳动物,这里用户用了大写字母,可能有特殊的含义,对于单词 HiPPO,我们可以将其拆分为 H-i-P-P-O,字母 P 出现在第 3 与第 4 个位置,因此有 2 个字母 P... 让我们简化问题,HiPO 可以拆分为...」面对这样的「严谨」,用户难免哭笑不得,既浪费了计算资源,也增加了等待时间,甚至更坏的情况是模型被自己冗长的推理链「绕晕了过去」,最终给出了错误的答案,用户只得捶胸顿足地大喊:「这合理吗?
11/3/2025 3:28:00 PM
机器之心

达摩院推出多智能体框架ReasonMed,打造医学推理数据生成新范式

本文第一作者是阿里巴巴达摩院研究实习生孙雨,他的主要研究兴趣方向是Medical Reasoning LM。 本文通讯作者是阿里巴巴达摩院资深专家徐挺洋博士。 在人工智能领域,推理语言模型(RLM)虽然在数学与编程任务中已展现出色性能,但在像医学这样高度依赖专业知识的场景中,一个亟待回答的问题是:复杂的多步推理会帮助模型提升医学问答能力吗?
11/3/2025 12:53:00 PM
机器之心

RAE的终极形态?北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

本文作者来自北京大学和阿里通义万相实验室。 其中论文第一作者是汤昊,北京大学 2022 级博士生,发表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要关注统一的多模态理解和生成。 指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 和 ICLR 2023 最佳论文奖。
11/2/2025 5:58:00 PM
机器之心

高智商 ≠ 高财商?50天实盘测试:LMArena 高分王者也可能是「韭菜」

该研究团队来自伊利诺伊大学厄巴纳-香槟分校(UIUC)。 核心贡献者之一 Haofei Yu 为计算机系博士生,另一位核心贡献者 Fenghai Li 为计算机系本科生,指导教师 Jiaxuan You 为计算机系助理教授,指导 UIUC U Lab。 Jiaxuan You 教授的研究聚焦于大模型智能体(Agentic LLM)的基础能力、垂直应用、生态建设,博士毕业于斯坦福大学,已在 NeurIPS、ICML、ICLR 等顶级会议发表论文三十余篇,总引用量近两万次,多次担任 Area Chair 并组织 Workshop;其开发或主导的开源项目累计获得三万余颗 Star。
11/2/2025 5:51:00 PM
机器之心

少量视角也能得到完整3D几何,即插即用的语义增强重建插件来了

本文作者来自上海交通大学、英国曼彻斯特大学与香港中文大学。 团队成员包括:徐博、王钰超、乐心怡(上海交通大学,自动化系),郭宇鹄、王昌凌(英国曼彻斯特大学,机械与航空航天工程学院),王文婷、任扬(香港中文大学,机械与自动化工程学系)。 表面重建的核心挑战,在于在少量视角下同时兼顾几何准确性、细节还原与结构完整性。
11/2/2025 5:36:00 PM
机器之心

上海AI Lab发布混合扩散语言模型SDAR:首个突破6600 tgs的开源扩散语言模型

程爽,上海人工智能实验室和浙江大学联培博士生一年级;卞一涵,美国马里兰大学硕士生二年级,上海人工智能实验室实习生;刘大卫,上海人工智能实验室和上海交通大学联培博士生一年级;齐弼卿,上海人工智能实验室研究员(指导老师)大模型推理速度慢、成本高,已成为限制其广泛应用的核心瓶颈。 其根源在于自回归(AR)模型「逐字生成」的串行模式。 近日,上海人工智能实验室针对该难题提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。
11/1/2025 8:40:00 PM
机器之心

AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!

在智能体强化学习的快速发展中,如何在探索与稳定之间取得平衡已成为多轮智能体训练的关键。 主流的熵驱动式智能体强化学习(Agentic RL)虽鼓励模型在高不确定性处分支探索,但过度依赖熵信号常导致训练不稳、甚至策略熵坍塌问题。 为此,中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出  Agentic Entropy-Balanced Policy Optimization(AEPO),一种面向多轮智能体的熵平衡强化学习优化算法。
11/1/2025 8:27:00 PM
机器之心

单张4090跑到30fps,范浩强团队让VLA实时跑起来了

VLA(Visual-Language-Action)大模型到底能跑多快? 在这篇 RT-VLA(Real-time VLA)论文中,来自 Dexmal 原力灵机(由范浩强等人联合创立的具身智能公司)的研究者公布了一个反直觉的发现:它可以非常快! 具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。
10/31/2025 4:05:00 PM
机器之心

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。 共同第一作者叶语霄是香港科技大学一年级博士。 通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。
10/31/2025 12:47:00 PM
机器之心

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成。 本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。 背景:从「噪声到声音」到「视频到声音」在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。
10/31/2025 11:14:00 AM
机器之心

AI版盗梦空间?Claude竟能察觉到自己被注入概念了

吾日三省吾身:为人谋而不忠乎? 与朋友交而不信乎? 传不习乎?
10/30/2025 7:44:00 PM
机器之心

扩散语言模型新发现:其计算潜力正在被浪费?

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗? 最近,越来越多的研究者对此提出质疑。 其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)。
10/30/2025 5:12:00 PM
机器之心

世界模型可单GPU秒级生成了?腾讯开源FlashWorld,效果惊艳、免费体验

厦门大学和腾讯合作的最新论文《FlashWorld: High-quality 3D Scene Generation within Seconds》获得了海内外的广泛关注,在当日 Huggingface Daily Paper 榜单位列第一,并在 X 上获得 AK、Midjourney 创始人、SuperSplat 创始人等 AI 大佬点赞转发。 FlashWorld 不仅将三维场景的生成在单卡上做到了 5~10 秒(相比之前方法提速百倍),更统一支持了单张图片或文本输入,生成的场景可以在网页用户端实时渲染,同时质量还胜过其他同类闭源模型。 主页 :: Demo::,作者们还提供了 Huggingface 上的免费 Demo 可以试玩。
10/30/2025 5:07:00 PM
机器之心

人大、清华DeepAnalyze,让LLM化身数据科学家

来自人大和清华的研究团队发布了 DeepAnalyze,首个面向自主数据科学的 agentic LLM。 DeepAnalyze引起了社区内广泛讨论,一周内收获1000多个GitHub星标、20w余次社交媒体浏览量。 DeepAnalyze正在不断完善中,诚邀大家交流合作!
10/30/2025 5:01:00 PM
机器之心