扩散模型
单目视频运镜增强:TrajectoryCrafter 实现流畅自然的相机运动
2025年3月10日,一项名为 TrajectoryCrafter 的前沿技术正式亮相,引发了科技界和视频创作领域的广泛关注。 这项基于扩散模型(diffusion models)的创新技术,能够从单一视角的单目视频中推断并生成全新的视角,为视频后期制作带来了革命性的可能性。 TrajectoryCrafter 的核心在于其强大的视角重定向能力。
3/11/2025 3:00:41 PM
AI在线
DiffUCD:扩散模型助力无监督高光谱变化检测,超越SOTA,逼近监督方法!
一眼概览DiffUCD 提出了一种创新的无监督高光谱影像变化检测(HSI-CD)方法,利用 语义相关性扩散模型(SCDM) 和 跨时间对比学习(CTCL),在无需标注的情况下提高检测精度,在多个基准数据集上超越现有方法。 核心问题高光谱影像变化检测(HSI-CD)旨在识别同一区域在不同时刻的地表变化。 然而,受限于以下挑战:• 现有方法依赖大量标注数据,而高质量的人工标注成本高昂。
3/3/2025 5:00:00 AM
萍哥学AI
六大诀窍帮你释放扩散模型的创造力
译者 | 朱先忠审校 | 重楼简介Stable Diffusion模型1.5/2.0/2.1/XL 1.0版本、DALL-E模型、Imagen模型……在过去几年中,扩散模型在图像生成方面展现出了惊人的质量。 然而,虽然这些模型在通用概念上产生了高质量的图像,但它们却难以为更专业的查询生成高质量的图像,例如生成训练数据集中不常见的特定风格的图像。 我们可以在大量图像上重新训练整个模型,从头开始解释解决问题所需的概念。
2/20/2025 10:14:04 AM
朱先忠
Light-A-Video :无需训练实现视频重新打光
近年来,图像重光照技术的进步得益于大规模数据集和预训练的扩散模型,使得一致性光照的应用变得更加普遍。 然而,在视频重光照领域,由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集,进展相对缓慢。 仅仅将图像重光照模型逐帧应用于视频,会导致多种问题,如光源不一致和重光照外观不一致,最终导致生成的视频出现闪烁现象。
2/17/2025 11:00:58 AM
AI在线
能量驱动注意力:提升文本到图像扩散模型的语义对齐新范式
一眼概览该论文提出了一种 基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 机制,以解决文本到图像扩散模型中的 语义不对齐(semantic misalignment) 问题。 通过建模 上下文向量的后验分布,该方法能够自适应地调整语义上下文,实现更精准的文本引导图像生成,无需额外训练,并在 多概念生成、文本引导修复、图像编辑 任务上取得了优异表现。 核心问题当前的 文本到图像扩散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高质量图像方面取得了巨大成功。
2/12/2025 10:17:12 AM
萍哥学AI
零样本 | MusicMagus:基于扩散模型的零样本文本驱动音乐编辑新方案
一眼概览MusicMagus 提出了一种基于扩散模型的零样本文本到音乐编辑方法,可在不额外训练的情况下,通过文本编辑修改音乐的风格、音色和乐器,同时保持其他属性不变。 实验表明,该方法在风格转换和音色转换方面优于现有零样本方法,并在某些任务上超越监督学习方法。 核心问题当前的文本到音乐生成模型已取得长足进展,但音乐创作往往需要反复修改,而如何在保持音乐整体结构的同时,精准编辑特定属性仍然是个挑战。
2/7/2025 10:10:05 AM
萍哥学AI
「扩散模型+多模态提示」精准增强皮肤病变分割,超越GAN,SSIM提升9%,Dice提升5%!
一眼概览该论文提出了一种基于扩散模型的医学影像生成方法,结合视觉和文本提示,以精准控制皮肤镜病变图像的生成,提升皮肤病变的分割性能。 实验结果显示,该方法比传统GAN生成方法在图像质量(SSIM提升9%)和分割性能(Dice系数提升5%)上均有显著改进。 核心问题问题背景医学影像分析受限于公开数据集稀缺及高质量标注成本高,数据增强方法(如GAN)虽能扩充数据,但难以精准控制病变类型、位置及属性,导致对下游任务(如病变分割)的提升有限。
2/4/2025 9:42:47 AM
萍哥学AI
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/31/2025 10:30:00 PM
机器之心
MetaDiff:用扩散模型重塑元学习,攻克小样本学习瓶颈!
一眼概览MetaDiff 提出了一种基于条件扩散模型的创新元学习方法,通过将梯度下降优化建模为去噪过程,有效提升了小样本学习(FSL)的性能,显著减少了内循环优化中的内存负担和梯度消失风险。 核心问题小样本学习的主要挑战在于:如何在训练数据有限的情况下快速适应新任务,而不引入过拟合或内存瓶颈。 传统基于梯度的元学习方法需要计算内循环路径上的二阶导数,导致内存消耗高和梯度消失问题,从而影响性能。
1/27/2025 12:57:43 AM
萍哥学AI
扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式
对于 LLM,推理时 scaling 是有效的! 这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗? 近日,纽约大学谢赛宁领导的一个团队对这一方向进行了探索。
1/18/2025 6:47:00 PM
机器之心
Nature重磅:微软生成式AI材料设计工具,稳定性提升2倍,实验验证误差低于20%!
编辑 | 2049材料创新是推动技术进步的关键驱动力之一。 从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术,材料科学的每一次突破都深刻影响着我们的日常生活。 然而,传统的材料发现方法依赖于耗时且昂贵的实验试错过程,而计算筛选方法虽然加速了这一过程,但仍然受限于已知材料的数量。
1/17/2025 3:29:00 PM
ScienceAI
Make U-Nets Great Again!北大&华为提出扩散架构U-DiT,六分之一算力即可超越DiT
AIxiv专栏是机器之心发布学术、技术内容的栏目。 过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
11/15/2024 1:14:00 PM
机器之心
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
最近,YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。 图片Youtube热烈讨论那么,这到底是怎么回事呢? 让我们一起来看看吧。
11/12/2024 1:10:49 PM
新智元
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。 然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。 近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。
10/29/2024 1:24:00 PM
机器之心
ECCV 2024 | 机器遗忘之后,扩散模型真正安全了吗?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌,贾景晗,两人均为OPTML实验室成员,指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine
8/26/2024 8:51:00 AM
机器之心
7000字详解!幼儿园都能看懂的 Stable Diffusion 工作原理
前言
事先声明!本文没有苦涩难懂的各种专业术语和代码公式,请大家放心食用。
在过去的一年里,AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具,其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展,很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求,使其可以在相对普通的硬件上运行外。也正是因为它的开源性,
8/22/2024 1:02:36 AM
五幺六
看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
事实证明,扩散模型不仅能用于生成图像和视频,也能用于合成新程序。假设我们给模型一张手绘的「5」状图形,它就能通过不断突变来修改程序,最终得到能输出目标图形的程序。该模型来自加州大学伯克利分校的一个研究团队,他们提出的这种程序合成新方法使用了神经扩散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur,其导师为该校计算机科学教授 Stuart Russell。论文标题:Diffusion On Syntax Trees For Program Synthesis论文地址:::。而该团队发现,通过利用
7/1/2024 10:45:00 AM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
Anthropic
英伟达
代码
训练
算法
Stable Diffusion
芯片
AI新词
LLM
蛋白质
开发者
腾讯
生成式
Claude
苹果
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
场景
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
特斯拉
应用