扩散模型

扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM，推理时 scaling 是有效的！这一点已经被近期的许多推理大模型证明：o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗？近日，纽约大学谢赛宁领导的一个团队对这一方向进行了探索。

1/18/2025 6:47:00 PM 机器之心

Nature重磅：微软生成式AI材料设计工具，稳定性提升2倍，实验验证误差低于20%！

编辑 | 2049材料创新是推动技术进步的关键驱动力之一。从 20 世纪 80 年代锂钴氧化物的发现到如今的锂离子电池技术，材料科学的每一次突破都深刻影响着我们的日常生活。然而，传统的材料发现方法依赖于耗时且昂贵的实验试错过程，而计算筛选方法虽然加速了这一过程，但仍然受限于已知材料的数量。

1/17/2025 3:29:00 PM ScienceAI

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

机器之心报道，编辑：佳琪、蛋酱。

12/1/2024 1:57:00 PM 机器之心

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

11/15/2024 1:14:00 PM 机器之心

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

最近，YouTube和Reddit上出现了一个引起广泛讨论的图像生成模型，来自日本、韩国、美国、印度、中东和英国的网友们纷纷参与讨论。图片Youtube热烈讨论那么，这到底是怎么回事呢？让我们一起来看看吧。

11/12/2024 1:10:49 PM 新智元

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。

10/29/2024 1:24:00 PM 机器之心

ECCV 2024 | 机器遗忘之后，扩散模型真正安全了吗？

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌，贾景晗，两人均为OPTML实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine

8/26/2024 8:51:00 AM 机器之心

7000字详解！幼儿园都能看懂的 Stable Diffusion 工作原理

前言事先声明！本文没有苦涩难懂的各种专业术语和代码公式，请大家放心食用。在过去的一年里，AIGC 在绘画领域的蓬勃发展对设计行业的冲击相信大家都有目共睹。各个公司都在要求设计师必须会使用 AIGC 的相关工具，其中以 Stable Diffusion 为基础的系列工具和 Midjourney 应用范围最广。AI 绘画领域能够取得如此巨大的进展，很大的功劳要归属于 Stability AI 发布了开源的 Stable Diffusion。它除了降低硬件要求，使其可以在相对普通的硬件上运行外。也正是因为它的开源性，

8/22/2024 1:02:36 AM 五幺六

看张手绘草图就能合成图形程序，加州伯克利让扩散模型掌握新技能

事实证明，扩散模型不仅能用于生成图像和视频，也能用于合成新程序。假设我们给模型一张手绘的「5」状图形，它就能通过不断突变来修改程序，最终得到能输出目标图形的程序。该模型来自加州大学伯克利分校的一个研究团队，他们提出的这种程序合成新方法使用了神经扩散模型来直接操作句法树。论文一作为该校博士生 Shreyas Kapur，其导师为该校计算机科学教授 Stuart Russell。论文标题：Diffusion On Syntax Trees For Program Synthesis论文地址：：：。而该团队发现，通过利用

7/1/2024 10:45:00 AM 机器之心

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

最近，扩散模型（Diffusion Model）在图像生成领域取得了显著的进展，为图像生成和视频生成任务带来了前所未有的发展机遇。尽管取得了令人印象深刻的结果，扩散模型在推理过程中天然存在的多步数迭代去噪特性导致了较高的计算成本。近期出现了一系列扩散模型蒸馏算法来加速扩散模型的推理过程。这些方法大致可以分为两类：i) 轨迹保持蒸馏；ii) 轨迹重构蒸馏。然而，这两类方法会分别受到效果天花板有限或者或输出域变化这两个问题的限制。为了解决这些问题，字节跳动技术团队提出了一种名为 Hyper-SD 的轨迹分段一致性模型。

4/25/2024 11:53:00 AM 机器之心

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹

设想一下，当你站在房间内，准备向门口走去，你是通过自回归的方式逐步规划路径吗？实际上，你的路径是一次性整体生成的。近期的研究表明，采用扩散模型的规划模块能够同时生成长序列的轨迹规划，这更加符合人类的决策模式。此外，扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、

3/11/2024 11:46:00 AM 机器之心

用扩散模型生成神经网络？NUS 尤洋团队：这不是开玩笑

作者：赖文昕编辑：郭思、陈彩娴说起扩散模型生成的东西，你会立刻想到什么？是OpenAI的经典牛油果椅子？是英伟达Magic3D生成的蓝色箭毒蛙？

3/7/2024 4:21:00 PM 赖文昕

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发展方向》。近日，来自新加坡国立大学的尤洋团队、加州大学伯克利分校、Meta AI Research 的一项新研究找到了扩散模型的一个新应用方向：用来生成神经网络的模型参数！论文地址：：：Neural Network Diffusion这样一来，似乎就可以使用现有的神

2/25/2024 7:56:00 PM 机器之心

爆火Sora背后的技术，一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验分布，而反向过程则逆转这一变化，用训练好的神经网络模拟微分方程来生成数据。与其他模型相比，扩散模型提供了更稳定的训练目标和更好的生成效果。

2/22/2024 10:53:00 AM 机器之心

真正实现一步文生图，谷歌UFOGen极速采样，生成高质量图像

最近一年来，以 Stable Diffusion 为代表的一系列文生图扩散模型彻底改变了视觉创作领域。数不清的用户通过扩散模型产生的图片提升生产力。但是，扩散模型的生成速度是一个老生常谈的问题。因为降噪模型依赖于多步降噪来逐渐将初始的高斯噪音变为图片，因此需要对网络多次计算，导致生成速度很慢。这导致大规模的文生图扩散模型对一些注重实时性，互动性的应用非常不友好。随着一系列技术的提出，从扩散模型中采样所需的步数已经从最初的几百步，到几十步，甚至只需要 4-8 步。最近，来自谷歌的研究团队提出了 UFOGen 模型，一

11/20/2023 3:24:00 PM 机器之心

AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述

AI 生成内容已经成为当前人工智能领域的最热门话题之一，也代表着该领域的前沿技术。近年来，随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布，AI 图像生成和编辑领域实现了令人惊艳的视觉效果，并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型，而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。然而，与简单的静态图像相比，视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程，因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在

10/23/2023 3:43:00 PM 机器之心

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 GGUF 是什么？一文看懂大模型里最火的模型格式后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉