AI在线 AI在线

工程

扔掉人工公式:快手EMER框架,用“会比较、自进化”的模型重构短视频推荐排序

当你打开短视频 App,手指上下滑动的每一秒,背后都藏着一套决定 “你接下来看什么” 的排序逻辑。 过去十年,行业里的推荐排序大多依赖 “人工设计公式”—— 工程师们把 “用户会不会点赞”、“能看多久” 等指标,按经验分配权重、套进公式,算出每个视频的 “优先级分数”。 但这套模式正在遭遇瓶颈:有人喜欢 “短平快” 的搞笑视频,有人偏爱 “慢节奏” 的生活记录,一套公式怎么满足千万用户的个性化需求?
10/30/2025 12:08:00 PM
机器之心

ICCV 2025 | 港科、牛津大学发布AlignGuard,文图生成模型可规模化安全对齐框架

本文共一作者为刘润涛和陈奕杰,香港科技大学计算机科学方向博士生,主要研究方向为多模态生成模型和偏好优化。 背景介绍随着文图生成模型的广泛应用,模型本身有限的安全防护机制使得用户有机会无意或故意生成有害的图片内容,并且该内容有可能会被恶意使用。 现有的安全措施主要依赖文本过滤或概念移除的策略,只能从文图生成模型的生成能力中移除少数几个概念。
10/30/2025 11:55:00 AM
机器之心

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢? 最近,苹果亲自上场,用一篇论文展示了其可行性。 在这篇论文中,苹果提出了一种内存高效型反向传播(MeBP)。
10/30/2025 10:26:00 AM
机器之心

中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力

大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能? 为此,中国移动九天团队创新性地提出了 Hybrid MoE 架构 —— MultiPL-MoE,该方案的核心在于耦合两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。 目前,该项研究已被 EMNLP 2025 接收。
10/30/2025 10:23:00 AM
机器之心

牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。 现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型,因为他们经过了大规模的预训练,所以 zero-shot 的能力比较强。 牛津 VGG ,港大,上交大团队这篇论文旨在提供一种方法,能够用学术界的资源来增强视觉语言大模型的预训练 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 图片检索。
10/29/2025 8:34:00 PM
机器之心

用「传心术」替代「对话」,清华大学联合无问芯穹、港中文等机构提出Cache-to-Cache模型通信新范式

随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。 而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。 在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊 [3][4]、巨大延迟(逐个 token 生成)三大问题。
10/29/2025 3:43:00 PM
机器之心

ICCV25 Highlight|格灵深瞳RICE模型狂刷榜单,让AI「看懂」图片的每个细节

最近,格灵深瞳公司灵感团队自研的视觉模型基座RICE(MVT v1.5)再次惊艳全场,刷榜多项视觉任务。 RICE 作为 MVT 系列的新模型,继续延续前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的视觉预训练理念,秉持着 margin 表征代表语义的核心观点,在顶级学术会议 ICCV25 上获得 Highlight 荣誉。 代码地址::: 系列作为灵感团队自研的视觉基座预训练方法,从 1.0 开始,就聚焦于如何让视觉模型利用海量的数据集进行更加准确的视觉语义表征。
10/29/2025 3:35:00 PM
机器之心

NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

视觉 Tokenizer 的困境与破局近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。 这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。 然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。
10/28/2025 5:54:00 PM
机器之心

NeurIPS 2025 | 北大联合小红书提出Uni-Instruct:ImageNet单步生图FID进入1.0时代!

近年来,单步扩散模型因其出色的生成性能和极高的推理效率,在图像生成、文本到视频、图像编辑等领域大放异彩。 目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。 然而,现有的方法主要集中在两条平行的理论技术路线上:基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收敛速度快,但可能存在模式崩溃问题,进而导致生成性能差。
10/28/2025 2:36:00 PM
机器之心

AlphaGo之父找到创造强化学习算法新方法:让AI自己设计

强化学习是近来 AI 领域最热门的话题之一,新算法也在不断涌现。 那么,问题来了:AI 能不能自己发现强大的强化学习算法呢? 近日,谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。
10/28/2025 12:59:00 PM
机器之心

3B Image Captioning小钢炮重磅来袭,性能比肩Qwen2.5-VL-72B

邢龙和董潇逸为本篇文章共同第一作者。 邢龙是中国科学技术大学博士生,师从林达华教授和吴枫教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。 董潇逸是香港中文大学 MMLab 的博士后研究员,同时在上海人工智能实验室担任兼职顾问研究员,已在顶级会议和期刊(如 CVPR、ICCV、ECCV 等)上发表了 50 余篇论文,Google Scholar 上获得超过 10000 次引用。
10/28/2025 12:48:00 PM
机器之心

用「进化+压力测试」自动生成的竞赛级编程题,各家大模型谁更hold住?

在当前评测生成式模型代码能力的浪潮中,传统依赖人工编写的算法基准测试集,正日益暴露出可扩展性不足与数据污染严重两大瓶颈。 为突破这一困局,北京大学与通用人工智能研究院联合提出全新 UniCode 框架。 该研究由北京大学梁一韬助理教授指导,博士生郑欣悦为第一作者,林昊苇为共同一作,创新性地构建了一套能够自动生成高质量算法题目与抗污染测试用例的进化式评测系统。
10/27/2025 5:07:00 PM
机器之心

推理效率狂飙60倍:DiDi-Instruct让扩散大模型16步超越千步GPT

近日,来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。 经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。       DiDi-Instruct 蒸馏得到的 “学生” 模型与教师模型、GPT-2 的文本生成效率对比。
10/27/2025 2:23:00 PM
机器之心

TPAMI 2025 | AI对抗迁移性评估的「拨乱反正」:那些年效果虚高的攻防算法们

本文第一作者 / 通讯作者赵正宇来自西安交通大学,共同第一作者张焓韡、李仞珏分别来自德国萨尔大学、中科工业人工智能研究院。 其他合作者分别来自法国马赛中央理工、法国 INRIA 国家信息与自动化研究所、德国 CISPA 亥姆霍兹信息安全中心、清华大学、武汉大学、西安交通大学。 对抗样本(adversarial examples)的迁移性(transferability)—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。
10/27/2025 2:13:00 PM
机器之心

三百年几何猜想被推翻,数学家首次发现「穿不过去」的多面体

想象一下,你手里拿着两个大小相同的骰子。 有没有可能在其中一个骰子上钻一条通道(tunnel),让另一个骰子能从中滑过去? 你的直觉也许会告诉你「不可能吧」,如果是这样,你不是唯一这样认为的。
10/26/2025 7:17:00 PM
机器之心

NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题

作者介绍:德州农工大学博士生李港,专注于设计和应用高效算法到大规模机器学习和人工智能任务,包括增强大型基础模型的后训练算法、对抗性鲁棒学习算法和分布鲁棒性学习算法。 曾发表数篇论文在 NeurIPS、ICML、KDD 等顶会, 并作为主要贡献者之一发布了针对不平衡分类任务的知名软件包 LibAUC。 DeepSeek-R1 的成功吸引了人们对群体相对策略优化(GRPO)作为大型推理模型(LRM)强化学习方法的广泛关注。
10/26/2025 7:04:00 PM
机器之心

打造图像编辑领域的ImageNet?苹果用Nano Banana开源了一个超大数据集

苹果在大模型和大模型应用上总是慢人一步。 Apple Intelligence 发布也已经一年多了,除去其仍未能在国行设备上提供服务外,功能上也很难称得上有多好用。 就拿视觉生成类功能举例子,苹果的图像生成大概是这个画风:但在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。
10/26/2025 6:52:00 PM
机器之心

NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍

自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。 Fast-dLLM v2 给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且只需~1B tokens 量级的微调即可达到 “无损” 迁移,不必训练数百 B tokens(如 Dream 需~580B tokens)。 在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高,最高可达 2.5×。
10/26/2025 6:48:00 PM
机器之心