AI在线 AI在线

扩散模型

变分掩码扩散模型:解决并发标记预测中的依赖关系问题

研究背景与问题定义基于扩散的大型语言模型(DLLMs)作为自回归模型(ARMs)的重要扩展,正在成为生成式AI领域的重要创新方向。 与传统ARMs按预定义顺序顺序生成标记的方式不同,DLLMs提供了并发标记生成、更高输出多样性、增强全局一致性以及更好的生成文本可控性等优势。 近期的突破性模型如LLaDA、Mercury和Gemini Diffusion都凸显了DLLMs的潜力。
10/30/2025 1:55:00 AM
葱葱

近500页史上最全扩散模型修炼宝典,宋飏等人一书覆盖三大主流视角

关于扩散模型的一切,宋飏等人写成了 460 多页的书。 扩散模型(Diffusion Models) ,几乎重塑了整个生成式 AI 的版图。 从图像到音频,从视频到 3D 世界。
10/29/2025 3:50:00 PM
机器之心

ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源

本文中,来自华南理工大学、MiroMind AI、新加坡国立大学以及琶洲实验室的研究者们提出一种新的生成模型 Diffusion Brush,首次将扩散模型用于文本行级的手写体生成,在英文、中文等多语言场景下实现了风格逼真、内容准确、排版自然的文本行生成。 研究背景AI 会写字吗? 在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
10/20/2025 5:27:00 PM
机器之心

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍

清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。 该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量。 文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。
10/7/2025 10:10:00 AM
机器之心

兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention

TiM团队 投稿. 量子位 | 公众号 QbitAI生成式AI的快与好,终于能兼得了? 从Stable Diffusion到DiT、FLUX系列,社区探索了很多技术方法用于加速生成速度和提高生成质量,但是始终围绕扩散模型和Few-step模型两条路线进行开发,不得不向一些固有的缺陷妥协。
9/14/2025 1:45:56 PM
henry

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速新算法STD

基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。 然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。 这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。
8/20/2025 7:49:28 AM

揭秘扩散模型:深入了解DALL-E和Midjourney背后的技术

译者 | 布加迪审校 | 重楼本文介绍了最流行的图像生成模型架构之一的技术层面。 近年来,生成式AI模型已成为一颗冉冉升起的新星,尤其是随着ChatGPT等大语言模型(LLM)产品闪亮登场。 这类模型使用人类能够理解的自然语言,可以处理输入,并提供合适的输出。
8/20/2025 7:47:19 AM
布加迪

华人团队终结Token危机:扩散模型数据潜力超自回归三倍

Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。 不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率,且未使用任何技巧或数据筛选。
8/13/2025 5:19:44 PM
时令

字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍

用扩散模型写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。 在H20上,它的代码推理速度能达到2146tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。
8/1/2025 2:15:20 PM
闻乐

图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight

henry 发自 凹非寺量子位 | 公众号 QbitAI一个不起眼的迷宫导航任务,却能让一众模型“原形毕露”。 Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。 唯独有一个模型,通关率高达 100%。
8/1/2025 1:02:35 PM
henry

物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”

不圆 发自 凹非寺. 量子位 | 公众号 QbitAIAI的“创造力”居然是一种技术缺陷? ?
7/4/2025 6:01:33 PM
不圆

谢赛宁团队新作:不用提示词精准实现3D画面控制

henry 发自 凹非寺量子位 | 公众号 QbitAI曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/3/2025 2:31:12 PM
henry

苹果在AI领域取得重大进展,图像生成技术可与DALL-E和Midjourney相媲美

苹果公司的机器学习研究团队开发出了一种突破性的AI系统,该系统能够生成高分辨率图像,可能对以DALL-E和Midjourney等流行图像生成器所依赖的扩散模型的主导地位构成挑战。 这项在上周发表的研究论文中详细介绍的技术名为“STARFlow”,是由苹果研究人员与学术合作伙伴共同开发的,该系统结合了标准化流(normalizing flows)与自回归Transformer,实现了研究团队所称的“与最先进的扩散模型相比具有竞争力”的性能。 这一突破发生在苹果面临AI领域批评声浪日益高涨的关键时刻。
6/10/2025 4:38:06 PM
Michael

CVPR2025|不改U-Net也能提升生成力!MaskUNet用掩码玩转扩散模型

一眼概览MaskUNet 提出了一种基于可学习掩码的参数筛选机制,在不更新预训练U-Net参数的前提下,有效提升了扩散模型的图像生成质量和下游泛化能力。 核心问题当前扩散模型在不同时间步使用相同U-Net参数生成结构和纹理信息,限制了模型的表达灵活性。 该研究聚焦于:如何在不更改预训练U-Net的参数下,提升其对不同时间步和样本的适应性,以生成更高质量的图像?
6/5/2025 11:52:27 AM
萍哥学AI

PlayDiffusion发布:开源扩散模型实现语音“局部修改”不留痕

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。 不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。 这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。
6/4/2025 11:00:59 AM
AI在线

英伟达与 MIT、香港大学联手推出 Fast-dLLM 框架,推理速度提升惊人

在最近的科技进展中,英伟达与麻省理工学院(MIT)和香港大学联合推出了名为 Fast-dLLM 的新框架,显著提升了扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍。 这一创新的成果为语言模型的应用开辟了新天地。 扩散模型被视为自回归模型的有力竞争者,采用了双向注意力机制,使其在理论上能够实现多词元同步生成,从而加快解码速度。
6/3/2025 3:00:54 PM
AI在线

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。 这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。  扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。
6/3/2025 2:00:54 PM
AI在线

火山引擎 veFuser:面向扩散模型的图像与视频生成推理服务框架

出品 | 51CTO技术栈(微信号:blog51cto)1.DiT 模型与推理挑战近年来,扩散模型(Diffusion Models)在生成式人工智能领域取得了突破性进展,尤其是在图像和视频生成方面表现卓越。 基于 Transformer 的扩散模型(DiT, Diffusion Transformer)因其强大的建模能力和高质量输出,成为学术界和工业界的研究热点。 DiT 模型通过逐步去噪的过程,从随机噪声生成逼真的图像或视频帧,结合 Transformer 架构的全局建模能力,能够捕捉复杂的语义特征和视觉细节,广泛应用于文本到图像、文本到视频、视频编辑等场景。
5/16/2025 1:18:37 PM