AI在线 AI在线

超过GPT-image-1!大黑马Black Forest刚开源新模型,只用文本实现一键PS

今天凌晨,知名开源平台Black Forest开源了,文生图模型FLUX.1-Kontext的开发者版本。 该版本主要专注于图像编辑任务,支持迭代编辑,在各种场景和环境中都能出色地保留角色特征,还允许进行精确的局部和全局编辑,例如,用户想给一个人脸加上胡子或者更改衣服穿着、场景,FLUX.1-Kontext都能轻松实现。 简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一键P图。

今天凌晨,知名开源平台Black Forest开源了,文生图模型FLUX.1-Kontext的开发者版本。

该版本主要专注于图像编辑任务,支持迭代编辑,在各种场景和环境中都能出色地保留角色特征,还允许进行精确的局部和全局编辑,例如,用户想给一个人脸加上胡子或者更改衣服穿着、场景,FLUX.1-Kontext都能轻松实现。

图片

简单来说,FLUX.1-Kontext开发版的主要功能可以像PS一样,让用户通过自然语言就能实现一键P图。

图片

开源地址:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Github:https://github.com/black-forest-labs/flux

根据Black Forest公布的测试数据显示,FLUX.1-Kontext开发版在人类偏好评估、指令编辑、文本插入与编辑、样式参考等评估基准中,超过了OpenAI发布的最新文生图模型GPT-image-1,成为目前最强开源文生图模型之一。

图片

FLUX.1-Kontext是在Black Forest之前开源的爆火模型FLUX.1基础之上开发而成。FLUX.1 Kontext 采用了基于流匹配的生成模型架构,其基础是在图像自动编码器的潜在空间中运行的整流Transformer。

图像会被冻结的FLUX自动编码器编码为潜在 tokens,这些上下文图像 tokens 会被附加到目标图像 tokens 上,再送入模型的视觉流。这种序列连接策略有两个显著优势,一是能够支持不同输入 / 输出分辨率和宽高比,二是可以轻松扩展到多个上下文图像的场景。

为了区分上下文和目标内容,模型通过三维旋转位置嵌入来编码位置信息,为上下文 tokens 设置恒定的时间偏移,使上下文和目标块在保持内部空间结构的同时被清晰分离。

图片

FLUX.1-Kontext的训练是基于整流流匹配损失函数,其核心目标是预测噪声速度以匹配潜在空间中的噪声分布。训练过程中会在干净图像和噪声之间进行线性插值得到混合潜在表示,模型需要学习预测从该混合表示到噪声的速度向量。

这种训练方式使得模型能够同时处理上下文编辑和文本到图像的生成任务当上下文图像存在时,模型执行图像驱动的编辑;当上下文图像不存在时,则从零开始生成新内容。为了提升训练效率和采样速度,模型引入了潜在对抗扩散蒸馏技术,通过对抗训练减少采样步骤,在保证样本质量的同时,将1024×1024 图像的生成时间压缩至 3-5 秒。

在训练阶段,模型基于数百万的关系对进行优化,无需针对不同任务进行参数调整或微调。这种设计使其能够无缝处理局部编辑、全局编辑、角色参考、风格参考和文本编辑等任务。例如,在局部编辑中,模型可以修改汽车颜色而保持背景不变;

图片

在风格参考任务中,它能提取参考图像的艺术风格并应用于新场景。特别值得一提的是,模型在多轮编辑中的角色一致性表现突出,通过 AuraFace 面部嵌入的余弦相似度计算可以看出,其在连续编辑中的视觉漂移明显低于竞争对手,这对于品牌形象维护、故事板生成等需要长期一致性的场景至关重要。

图片

为了实现快速推理,模型在工程层面进行了多项优化。在硬件利用方面,Black Forest与英伟达进行技术合作,专为新的NVIDIA Blackwell 架构设计了优化的 TensorRT 权重,极大提高了推理速度并降低了内存使用量,同时保持了高质量的图像编辑性能。

同时使用 Flash Attention 3 和 Transformer 块的区域编译来提高吞吐量。在训练策略上,结合混合精度训练和选择性激活检查点技术,降低显存占用,支持更大规模的模型训练。这些优化使得FLUX.1 Kontext在保持生成质量的同时,实现了比 GPT-Image-1 等模型快一个数量级的推理速度。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1