图像生成

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt，该方法可以将复杂外观转移到详细设计图上的框架，可促进设计和艺术创作。现有的图像生成技术在细节保留和风格样式一致性方面存在局限，尤其是在处理专业设计图时。

1/20/2025 10:23:00 AM AIGC Studio

ScribbleDiff：使用涂鸦精细引导扩散，实现无需训练的文本到图像生成。

ScribbleDiff：使用涂鸦精细引导扩散，实现无需训练的文本到图像生成。

ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条，表示你想要的图像的轮廓。 ScribbleDiff会利用这些线条来指导图像生成的过程。

1/15/2025 9:28:42 AM AIGC Studio

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

DDColor 可以为历史黑白老照片提供生动自然的着色。它甚至可以对动漫游戏中的风景进行着色/重新着色，将您的动画风景转变为逼真的现实生活风格！相关链接项目：github.com/piddnad/DDColorDemo：replicate.com/piddnad/ddcolor论文：arxiv.org/abs/2212.11613论文阅读摘要图像着色是一个具有挑战性的问题，由于多模态不确定性和高病态性。

1/13/2025 9:17:41 AM AIGC Studio

Google发布新AI工具Whisk：使用图像提示代替文本，快速完成视觉构思

Google发布新AI工具Whisk：使用图像提示代替文本，快速完成视觉构思

Google发布了新的AI工具Whisk，Whisk 是 Google Labs 的一项新实验，可使用图像进行快速而有趣的创作过程。 Whisk不会生成带有长篇详细文本提示的图像，而是使用图像进行提示。只需拖入图像，即可开始创建。

1/9/2025 9:52:38 AM AIGC Studio

单幅图像合成 360° 3D场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。

单幅图像合成 360° 3D场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。

论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度，解决了现有最先进方法（如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节，通常在循环回输入图像时导致可见的接缝。

1/8/2025 9:15:00 AM AIGC Studio

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation，是由复旦大学&字节跳动提出的layout-to-image新范式，支持基于布局的MM-DiT架构下的可控图像生成！效果示例相关链接论文地址: : : : : (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术，其中布局信息包括实体在图像中的空间位置和描述。例如，用户指定了这些实体的描述与空间位置：钢铁侠手里拿着画板，站在岩石上，画板上用手绘字体写着“CreatiLayout”，背景是海边与日落。

1/7/2025 10:20:00 AM Hui Zhang等

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成。

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成。

北航提出了第一个多功能的即插即用适配器MV-Adapter。可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。 MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成，并展示了出色的适应性和多功能性。

1/7/2025 10:00:00 AM Zehuan Huang等

SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

本文经AIGC Studio公众号授权转载，转载请联系出处。当前的妆容转移技术面临两个主要挑战：缺乏成对数据，导致模型训练依赖于低质量的伪配对数据，从而影响妆容的真实感；不同妆容风格对面部的影响各异，现有方法难以有效处理这种多样性。今天给大家介绍的方法是由阿里联合武汉理工等提出的自监督层次化妆转移方法（SHMT），可以将多样化的妆容风格自然且精准地应用于给定的面部图像。

1/6/2025 9:00:00 AM Zhaoyang Sun等

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍由香港大学，Adobe提出的统一图像生产与编辑方法UniReal，将多种图像任务统一成视频生成的范式，并且在大规模视频中学习真实的动态与变化，在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。上图为UniReal多功能性的展示。

1/3/2025 10:30:00 AM Xi Chen等

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

在AI生成图像领域，Stable Diffusion已经成为一个里程碑式的工具，凭借其强大的图像生成能力，被广泛应用于艺术创作、商业设计等领域。然而，生成高质量图像的过程常常需要付出大量的时间和内存，这对于硬件资源有限的设备来说是一大挑战。为了应对这一问题，北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp（简称Sdcpp）的优化方法，引入了Winograd算法和三个优化策略，最终整图生成速度最高可达到4.79倍，从此实现创作自由！

12/23/2024 9:10:00 AM 新智元

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

DeepMind悄悄发布PaliGemma二代，最易微调「视觉语言全能王」来了，多项任务登顶SOTA

OpenAI的发布会仿佛连续剧，让人眼花缭乱，谷歌也悄悄发布了PaliGemma 2模型，迈向可调视觉语言模型的下一代。今年5月，谷歌发布PaliGemma，也是Gemma家族中的第一个视觉语言模型，致力于模型民主化，降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座，增加了视觉能力，微调起来更容易，性能也更好。

12/11/2024 1:50:00 PM 新智元

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

近年来，生成式人工智能（AIGC）引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频，广受用户喜爱。然而，这些模型在处理复杂的提示词时仍存在不足。

11/6/2024 1:30:00 PM 新智元

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉