扩散模型
3DV-TON革新视频试穿,扩散模型驱动纹理3D一致性新体验
一款名为3DV-TON(Textured3D-Guided Consistent Video Try-on via Diffusion Models)的创新技术正式亮相,通过扩散模型实现纹理3D引导的视频试穿体验。 据AIbase了解,3DV-TON利用先进的3D几何与纹理建模,结合视频扩散模型,确保服装在动态视频中的一致性与真实感,为电商、时尚和虚拟现实领域带来突破性应用。 相关细节已通过学术平台与社交媒体公开。
4/25/2025 5:00:48 PM
AI在线
Character.AI 推出 AvatarFX 模型:让静态图片中的人物“开口说话”
Character.AI 近日宣布推出全新视频生成模型 AvatarFX,这一突破性技术能够将静态图片转化为具有真实感的可说话视频角色,赋予图像中的人物动态表情、唇部同步以及自然肢体动作。 AvatarFX 的核心是其最先进的基于扩散模型的动态生成技术。 该技术依托经过精心筛选的数据集进行训练,融合了创新的音频条件化、蒸馏和推理策略,使得用户能够以极高的速度生成高保真、时间一致性强的视频。
4/23/2025 10:00:42 AM
AI在线
新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮
在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。 近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。 这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。
4/21/2025 12:01:09 PM
AI在线
爆火Block Diffusion引发LLM架构变革?自回归+扩散模型完美结合
扩散模型被广泛应用于生成图像和视频,并且在生成离散数据(如文本或生物序列)任务上的效果也越来越好,与自回归模型相比,扩散模型有望加速「生成过程」并提高模型输出的「可控性」。 然而,离散扩散模型目前仍然有三个局限性:在聊天系统等应用中,模型需要生成任意长度的输出序列(例如,对用户问题的回答),但大多数现有的扩散架构只能生成固定长度的向量;离散扩散在生成过程中使用双向上下文,因此无法利用键值缓存(KV caching)复用之前的计算,使得推理效率较低。 从困惑度等标准指标来看,离散扩散模型的质量仍落后于自回归方法,也进一步限制了其应用范围。
3/25/2025 9:04:12 AM
新智元
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
生成模型已成为人工智能领域的关键突破,赋予机器创建高度逼真的图像、音频和文本的能力。 在众多生成技术中,扩散模型和Flow Matching尤为引人注目。 这两种方法虽然都致力于在噪声与结构化数据之间建立转换,但其基础原理存在本质区别。
3/20/2025 11:28:34 AM
佚名
单目视频运镜增强:TrajectoryCrafter 实现流畅自然的相机运动
2025年3月10日,一项名为 TrajectoryCrafter 的前沿技术正式亮相,引发了科技界和视频创作领域的广泛关注。 这项基于扩散模型(diffusion models)的创新技术,能够从单一视角的单目视频中推断并生成全新的视角,为视频后期制作带来了革命性的可能性。 TrajectoryCrafter 的核心在于其强大的视角重定向能力。
3/11/2025 3:00:41 PM
AI在线
DiffUCD:扩散模型助力无监督高光谱变化检测,超越SOTA,逼近监督方法!
一眼概览DiffUCD 提出了一种创新的无监督高光谱影像变化检测(HSI-CD)方法,利用 语义相关性扩散模型(SCDM) 和 跨时间对比学习(CTCL),在无需标注的情况下提高检测精度,在多个基准数据集上超越现有方法。 核心问题高光谱影像变化检测(HSI-CD)旨在识别同一区域在不同时刻的地表变化。 然而,受限于以下挑战:• 现有方法依赖大量标注数据,而高质量的人工标注成本高昂。
3/3/2025 5:00:00 AM
萍哥学AI
六大诀窍帮你释放扩散模型的创造力
译者 | 朱先忠审校 | 重楼简介Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在过去几年中,扩散模型在图像生成方面展现出了惊人的质量。 然而,虽然这些模型在通用概念上产生了高质量的图像,但它们却难以为更专业的查询生成高质量的图像,例如生成训练数据集中不常见的特定风格的图像。 我们可以在大量图像上重新训练整个模型,从头开始解释解决问题所需的概念。
2/20/2025 10:14:04 AM
朱先忠
Light-A-Video :无需训练实现视频重新打光
近年来,图像重光照技术的进步得益于大规模数据集和预训练的扩散模型,使得一致性光照的应用变得更加普遍。 然而,在视频重光照领域,由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集,进展相对缓慢。 仅仅将图像重光照模型逐帧应用于视频,会导致多种问题,如光源不一致和重光照外观不一致,最终导致生成的视频出现闪烁现象。
2/17/2025 11:00:58 AM
AI在线
能量驱动注意力:提升文本到图像扩散模型的语义对齐新范式
一眼概览该论文提出了一种 基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 机制,以解决文本到图像扩散模型中的 语义不对齐(semantic misalignment) 问题。 通过建模 上下文向量的后验分布,该方法能够自适应地调整语义上下文,实现更精准的文本引导图像生成,无需额外训练,并在 多概念生成、文本引导修复、图像编辑 任务上取得了优异表现。 核心问题当前的 文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。
2/12/2025 10:17:12 AM
萍哥学AI
零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案
一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。
2/7/2025 10:10:05 AM
萍哥学AI
「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!
一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。
2/4/2025 9:42:47 AM
萍哥学AI
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/31/2025 10:30:00 PM
机器之心
MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!
一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。
1/27/2025 12:57:43 AM
萍哥学AI
扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
对于 LLM,推理时 scaling 是有效的! 这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗? 近日,纽约大学谢赛宁领导的一个团队对这一方向进行了探索。
1/18/2025 6:47:00 PM
机器之心
Nature重磅:微软生成式AI材料设计工具,稳定性提升2倍,实验验证误差低于20%!
编辑 | 2049材料创新是推动技术进步的关键驱动力之一。 从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。 然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。
1/17/2025 3:29:00 PM
ScienceAI
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
11/15/2024 1:14:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉