AI在线 AI在线

扩散模型

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速新算法STD

基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。 然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。 这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。
8/20/2025 7:49:28 AM

揭秘扩散模型:深入了解DALL-E和Midjourney背后的技术

译者 | 布加迪审校 | 重楼本文介绍了最流行的图像生成模型架构之一的技术层面。 近年来,生成式AI模型已成为一颗冉冉升起的新星,尤其是随着ChatGPT等大语言模型(LLM)产品闪亮登场。 这类模型使用人类能够理解的自然语言,可以处理输入,并提供合适的输出。
8/20/2025 7:47:19 AM
布加迪

华人团队终结Token危机:扩散模型数据潜力超自回归三倍

Token危机真的要解除了吗? 最新研究发现,在token数量受限的情况下,扩散语言模型的数据潜力可达自回归模型的三倍多。 不仅如此,一个参数规模为1B的扩散模型,用1B tokens进行480个周期的训练,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率,且未使用任何技巧或数据筛选。
8/13/2025 5:19:44 PM
时令

字节Seed发布扩散语言模型,推理速度达2146 tokens/s,比同规模自回归快5.4倍

用扩散模型写代码,不仅像开了倍速,改起来还特别灵活! 字节Seed最新发布扩散语言模型Seed Diffusion Preview,这款模型主要聚焦于代码生成领域,它的特别之处在于采用了离散状态扩散技术,在推理速度上表现出色。 在H20上,它的代码推理速度能达到2146tokens/s,比同类的Mercury和Gemini Diffusion等模型快不少,同时比同等规模的自回归模型快5.4倍,并且在代码编辑任务中更具优势。
8/1/2025 2:15:20 PM
闻乐

图灵奖得主加持,蒙特卡洛树搜索×扩散模型杀回规划赛道|ICML 2025 Spotlight

henry 发自 凹非寺量子位 | 公众号 QbitAI一个不起眼的迷宫导航任务,却能让一众模型“原形毕露”。 Diffuser和Diffusion Forcing双双翻车,通关率低得可怜。 唯独有一个模型,通关率高达 100%。
8/1/2025 1:02:35 PM
henry

物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”

不圆 发自 凹非寺. 量子位 | 公众号 QbitAIAI的“创造力”居然是一种技术缺陷? ?
7/4/2025 6:01:33 PM
不圆

谢赛宁团队新作:不用提示词精准实现3D画面控制

henry 发自 凹非寺量子位 | 公众号 QbitAI曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/3/2025 2:31:12 PM
henry

苹果在AI领域取得重大进展,图像生成技术可与DALL-E和Midjourney相媲美

苹果公司的机器学习研究团队开发出了一种突破性的AI系统,该系统能够生成高分辨率图像,可能对以DALL-E和Midjourney等流行图像生成器所依赖的扩散模型的主导地位构成挑战。 这项在上周发表的研究论文中详细介绍的技术名为“STARFlow”,是由苹果研究人员与学术合作伙伴共同开发的,该系统结合了标准化流(normalizing flows)与自回归Transformer,实现了研究团队所称的“与最先进的扩散模型相比具有竞争力”的性能。 这一突破发生在苹果面临AI领域批评声浪日益高涨的关键时刻。
6/10/2025 4:38:06 PM
Michael

CVPR2025|不改U-Net也能提升生成力!MaskUNet用掩码玩转扩散模型

一眼概览MaskUNet 提出了一种基于可学习掩码的参数筛选机制,在不更新预训练U-Net参数的前提下,有效提升了扩散模型的图像生成质量和下游泛化能力。 核心问题当前扩散模型在不同时间步使用相同U-Net参数生成结构和纹理信息,限制了模型的表达灵活性。 该研究聚焦于:如何在不更改预训练U-Net的参数下,提升其对不同时间步和样本的适应性,以生成更高质量的图像?
6/5/2025 11:52:27 AM
萍哥学AI

PlayDiffusion发布:开源扩散模型实现语音“局部修改”不留痕

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。 不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。 这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。
6/4/2025 11:00:59 AM
AI在线

英伟达与 MIT、香港大学联手推出 Fast-dLLM 框架,推理速度提升惊人

在最近的科技进展中,英伟达与麻省理工学院(MIT)和香港大学联合推出了名为 Fast-dLLM 的新框架,显著提升了扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍。 这一创新的成果为语言模型的应用开辟了新天地。 扩散模型被视为自回归模型的有力竞争者,采用了双向注意力机制,使其在理论上能够实现多词元同步生成,从而加快解码速度。
6/3/2025 3:00:54 PM
AI在线

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。 这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。  扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。
6/3/2025 2:00:54 PM
AI在线

火山引擎 veFuser:面向扩散模型的图像与视频生成推理服务框架

出品 | 51CTO技术栈(微信号:blog51cto)1.DiT 模型与推理挑战近年来,扩散模型(Diffusion Models)在生成式人工智能领域取得了突破性进展,尤其是在图像和视频生成方面表现卓越。 基于 Transformer 的扩散模型(DiT, Diffusion Transformer)因其强大的建模能力和高质量输出,成为学术界和工业界的研究热点。 DiT 模型通过逐步去噪的过程,从随机噪声生成逼真的图像或视频帧,结合 Transformer 架构的全局建模能力,能够捕捉复杂的语义特征和视觉细节,广泛应用于文本到图像、文本到视频、视频编辑等场景。
5/16/2025 1:18:37 PM

3DV-TON革新视频试穿,扩散模型驱动纹理3D一致性新体验

一款名为3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)的创新技术正式亮相,通过扩散模型实现纹理3D引导的视频试穿体验。 据AIbase了解,3DV-TON利用先进的3D几何与纹理建模,结合视频扩散模型,确保服装在动态视频中的一致性与真实感,为电商、时尚和虚拟现实领域带来突破性应用。 相关细节已通过学术平台与社交媒体公开。
4/25/2025 5:00:48 PM
AI在线

Character.AI 推出 AvatarFX 模型:让静态图片中的人物“开口说话”

Character.AI 近日宣布推出全新视频生成模型 AvatarFX,这一突破性技术能够将静态图片转化为具有真实感的可说话视频角色,赋予图像中的人物动态表情、唇部同步以及自然肢体动作。 AvatarFX 的核心是其最先进的基于扩散模型的动态生成技术。 该技术依托经过精心筛选的数据集进行训练,融合了创新的音频条件化、蒸馏和推理策略,使得用户能够以极高的速度生成高保真、时间一致性强的视频。
4/23/2025 10:00:42 AM
AI在线

新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。 近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。 这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。
4/21/2025 12:01:09 PM
AI在线

爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频,并且在生成离散数据(如文本或生物序列)任务上的效果也越来越好,与自回归模型相比,扩散模型有望加速「生成过程」并提高模型输出的「可控性」。 然而,离散扩散模型目前仍然有三个局限性:在聊天系统等应用中,模型需要生成任意长度的输出序列(例如,对用户问题的回答),但大多数现有的扩散架构只能生成固定长度的向量;离散扩散在生成过程中使用双向上下文,因此无法利用键值缓存(KV caching)复用之前的计算,使得推理效率较低。 从困惑度等标准指标来看,离散扩散模型的质量仍落后于自回归方法,也进一步限制了其应用范围。
3/25/2025 9:04:12 AM
新智元

生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较

生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。 在众多生成技术中,扩散模型和Flow Matching尤为引人注目。 这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。
3/20/2025 11:28:34 AM
佚名