扩散模型

PlayDiffusion发布：开源扩散模型实现语音“局部修改”不留痕

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion，这是一种基于扩散模型的创新性工具，专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成，PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整，而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率，也让音频编辑进入“所听即所得”的新阶段。

6/4/2025 11:00:59 AM AI在线

英伟达与 MIT、香港大学联手推出 Fast-dLLM 框架，推理速度提升惊人

在最近的科技进展中，英伟达与麻省理工学院（MIT）和香港大学联合推出了名为 Fast-dLLM 的新框架，显著提升了扩散模型(Diffusion-based LLMs)的推理速度，最高可达27.6倍。这一创新的成果为语言模型的应用开辟了新天地。扩散模型被视为自回归模型的有力竞争者，采用了双向注意力机制，使其在理论上能够实现多词元同步生成，从而加快解码速度。

6/3/2025 3:00:54 PM AI在线

英伟达与MIT合作推出 Fast-dLLM 框架，AI 推理速度提升 27.6 倍

近日，科技巨头英伟达联合麻省理工学院（MIT）与香港大学，发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度，最高可达27.6倍，为人工智能的应用提供了更为强大的技术支持。扩散模型的挑战与机遇扩散模型被视为传统自回归模型（Autoregressive Models）的有力竞争者。

6/3/2025 2:00:54 PM AI在线

火山引擎 veFuser：面向扩散模型的图像与视频生成推理服务框架

出品 | 51CTO技术栈（微信号：blog51cto）1.DiT 模型与推理挑战近年来，扩散模型（Diffusion Models）在生成式人工智能领域取得了突破性进展，尤其是在图像和视频生成方面表现卓越。基于 Transformer 的扩散模型（DiT, Diffusion Transformer）因其强大的建模能力和高质量输出，成为学术界和工业界的研究热点。 DiT 模型通过逐步去噪的过程，从随机噪声生成逼真的图像或视频帧，结合 Transformer 架构的全局建模能力，能够捕捉复杂的语义特征和视觉细节，广泛应用于文本到图像、文本到视频、视频编辑等场景。

5/16/2025 1:18:37 PM

3DV-TON革新视频试穿，扩散模型驱动纹理3D一致性新体验

一款名为3DV-TON（Textured3D-Guided Consistent Video Try-on via Diffusion Models）的创新技术正式亮相，通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解，3DV-TON利用先进的3D几何与纹理建模，结合视频扩散模型，确保服装在动态视频中的一致性与真实感，为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。

4/25/2025 5:00:48 PM AI在线

Character.AI 推出 AvatarFX 模型：让静态图片中的人物“开口说话”

Character.AI 近日宣布推出全新视频生成模型 AvatarFX，这一突破性技术能够将静态图片转化为具有真实感的可说话视频角色，赋予图像中的人物动态表情、唇部同步以及自然肢体动作。 AvatarFX 的核心是其最先进的基于扩散模型的动态生成技术。该技术依托经过精心筛选的数据集进行训练，融合了创新的音频条件化、蒸馏和推理策略，使得用户能够以极高的速度生成高保真、时间一致性强的视频。

4/23/2025 10:00:42 AM AI在线

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研究者们联合推出了一种名为 d1的新框架，该框架结合了监督微调(SFT)和强化学习(RL)，使扩散模型具备更强的推理能力，包括数学理解、逻辑推理等。这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型（dLLM）的性能。

4/21/2025 12:01:09 PM AI在线

爆火Block Diffusion引发LLM架构变革？自回归+扩散模型完美结合

扩散模型被广泛应用于生成图像和视频，并且在生成离散数据（如文本或生物序列）任务上的效果也越来越好，与自回归模型相比，扩散模型有望加速「生成过程」并提高模型输出的「可控性」。然而，离散扩散模型目前仍然有三个局限性：在聊天系统等应用中，模型需要生成任意长度的输出序列（例如，对用户问题的回答），但大多数现有的扩散架构只能生成固定长度的向量；离散扩散在生成过程中使用双向上下文，因此无法利用键值缓存（KV caching）复用之前的计算，使得推理效率较低。从困惑度等标准指标来看，离散扩散模型的质量仍落后于自回归方法，也进一步限制了其应用范围。

3/25/2025 9:04:12 AM 新智元

生成AI的两大范式：扩散模型与Flow Matching的理论基础与技术比较

生成模型已成为人工智能领域的关键突破，赋予机器创建高度逼真的图像、音频和文本的能力。在众多生成技术中，扩散模型和Flow Matching尤为引人注目。这两种方法虽然都致力于在噪声与结构化数据之间建立转换，但其基础原理存在本质区别。

3/20/2025 11:28:34 AM 佚名

单目视频运镜增强：TrajectoryCrafter 实现流畅自然的相机运动

2025年3月10日，一项名为 TrajectoryCrafter 的前沿技术正式亮相，引发了科技界和视频创作领域的广泛关注。这项基于扩散模型（diffusion models）的创新技术，能够从单一视角的单目视频中推断并生成全新的视角，为视频后期制作带来了革命性的可能性。 TrajectoryCrafter 的核心在于其强大的视角重定向能力。

3/11/2025 3:00:41 PM AI在线

DiffUCD：扩散模型助力无监督高光谱变化检测，超越SOTA，逼近监督方法！

一眼概览DiffUCD 提出了一种创新的无监督高光谱影像变化检测（HSI-CD）方法，利用语义相关性扩散模型（SCDM）和跨时间对比学习（CTCL），在无需标注的情况下提高检测精度，在多个基准数据集上超越现有方法。核心问题高光谱影像变化检测（HSI-CD）旨在识别同一区域在不同时刻的地表变化。然而，受限于以下挑战：• 现有方法依赖大量标注数据，而高质量的人工标注成本高昂。

3/3/2025 5:00:00 AM 萍哥学AI

六大诀窍帮你释放扩散模型的创造力

译者 | 朱先忠审校 | 重楼简介Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在过去几年中，扩散模型在图像生成方面展现出了惊人的质量。然而，虽然这些模型在通用概念上产生了高质量的图像，但它们却难以为更专业的查询生成高质量的图像，例如生成训练数据集中不常见的特定风格的图像。我们可以在大量图像上重新训练整个模型，从头开始解释解决问题所需的概念。

2/20/2025 10:14:04 AM 朱先忠

Light-A-Video ：无需训练实现视频重新打光

近年来，图像重光照技术的进步得益于大规模数据集和预训练的扩散模型，使得一致性光照的应用变得更加普遍。然而，在视频重光照领域，由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集，进展相对缓慢。仅仅将图像重光照模型逐帧应用于视频，会导致多种问题，如光源不一致和重光照外观不一致，最终导致生成的视频出现闪烁现象。

2/17/2025 11:00:58 AM AI在线

能量驱动注意力：提升文本到图像扩散模型的语义对齐新范式

一眼概览该论文提出了一种基于能量的跨注意力（Energy-Based Cross-Attention, EBCA）机制，以解决文本到图像扩散模型中的语义不对齐（semantic misalignment）问题。通过建模上下文向量的后验分布，该方法能够自适应地调整语义上下文，实现更精准的文本引导图像生成，无需额外训练，并在多概念生成、文本引导修复、图像编辑任务上取得了优异表现。核心问题当前的文本到图像扩散模型（Text-to-Image Diffusion Models）（如 Stable Diffusion、Imagen）在生成高质量图像方面取得了巨大成功。

2/12/2025 10:17:12 AM 萍哥学AI

零样本 | MusicMagus：基于扩散模型的零样本文本驱动音乐编辑新方案

一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法，可在不额外训练的情况下，通过文本编辑修改音乐的风格、音色和乐器，同时保持其他属性不变。实验表明，该方法在风格转换和音色转换方面优于现有零样本方法，并在某些任务上超越监督学习方法。核心问题当前的文本到音乐生成模型已取得长足进展，但音乐创作往往需要反复修改，而如何在保持音乐整体结构的同时，精准编辑特定属性仍然是个挑战。

2/7/2025 10:10:05 AM 萍哥学AI

「扩散模型+多模态提示」精准增强皮肤病变分割，超越GAN，SSIM提升9%，Dice提升5%！

一眼概览该论文提出了一种基于扩散模型的医学影像生成方法，结合视觉和文本提示，以精准控制皮肤镜病变图像的生成，提升皮肤病变的分割性能。实验结果显示，该方法比传统GAN生成方法在图像质量（SSIM提升9%）和分割性能（Dice系数提升5%）上均有显著改进。核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高，数据增强方法（如GAN）虽能扩充数据，但难以精准控制病变类型、位置及属性，导致对下游任务（如病变分割）的提升有限。

2/4/2025 9:42:47 AM 萍哥学AI

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

1/31/2025 10:30:00 PM 机器之心

MetaDiff：用扩散模型重塑元学习，攻克小样本学习瓶颈！

一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法，通过将梯度下降优化建模为去噪过程，有效提升了小样本学习（FSL）的性能，显著减少了内循环优化中的内存负担和梯度消失风险。核心问题小样本学习的主要挑战在于：如何在训练数据有限的情况下快速适应新任务，而不引入过拟合或内存瓶颈。传统基于梯度的元学习方法需要计算内循环路径上的二阶导数，导致内存消耗高和梯度消失问题，从而影响性能。

1/27/2025 12:57:43 AM 萍哥学AI

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 GGUF 是什么？一文看懂大模型里最火的模型格式后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉