AI在线 AI在线

Step1X-Edit:开源图像编辑新标杆 媲美GPT-4o等闭源模型

2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。 这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。 以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。

2025年4月27日,AIbase报道:由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源,引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性,展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。

以下是对Step1X-Edit的全面解析,涵盖其技术亮点、应用场景及未来影响。

QQ_1745715180413.png

创新技术架构

Step1X-Edit采用多模态大语言模型(MLLM)与扩散变换器(DiT)的结合,通过处理用户提供的参考图像和编辑指令,生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散模型的图像生成能力相融合。模型通过提取潜在嵌入并与扩散图像解码器集成,能够精准响应多样化的编辑需求。

训练过程中,团队构建了包含超过100万高质量三元组(参考图像、指令、目标图像)的数据管道,覆盖11种编辑类型,确保模型在复杂场景下的鲁棒性。

GEdit-Bench:真实场景的评测标杆

为更真实地评估图像编辑模型的性能,Stepfun AI团队发布了全新基准GEdit-Bench。该基准基于现实世界的用户指令设计,涵盖广泛的编辑场景,从简单的色彩调整到复杂的对象添加或场景重构。

实验结果显示,Step1X-Edit在GEdit-Bench上的表现大幅超越现有开源基线模型,接近领先的闭源模型水平。这一基准的开源发布为图像编辑领域的研究提供了更贴近实际需求的评测工具,标志着行业评估标准的进步。

开源资源与高性能表现

Step1X-Edit的代码、模型权重及GEdit-Bench评测数据已于2025年4月25日通过Hugging Face和ModelScope平台开放。模型支持在单块H800 GPU上运行,推荐使用80GB显存以获得最佳生成质量。

对于512x512分辨率的图像,模型可在42GB显存下于5秒内完成编辑;1024x1024分辨率则需50GB显存,耗时约22秒。官方提供的推理代码和安装脚本进一步降低了使用门槛,支持Python 3.10及以上版本,兼容主流深度学习框架如PyTorch 2.3.1及2.5.1。

广泛的应用前景

Step1X-Edit的灵活性和高精度使其适用于多种场景。无论是专业设计师优化创意作品,还是普通用户进行照片美化,该模型都能通过简单指令实现复杂编辑。

例如,用户可以通过文本描述实现背景替换、对象移除或风格迁移,生成专业品质的图像。此外,模型已在fal.ai等平台上线,用户可通过在线演示体验其功能。这一开源模型的发布为内容创作者、开发者和研究人员提供了强大的工具,助力图像编辑的普及和创新。

对行业的深远影响

Step1X-Edit的开源不仅推动了图像编辑技术的发展,也为开源社区注入了新的活力。相较于依赖专有数据的闭源模型,Step1X-Edit通过透明的训练流程和高可复现性,为学术界和开发者提供了研究和优化的基础。

业界人士认为,该模型的发布可能促使更多企业探索开源AI的商业化路径,同时激励闭源模型提供商进一步提升性能。

未来优化与期待

尽管Step1X-Edit已展现出强大实力,但其高显存需求可能限制部分用户的访问。未来,团队计划优化模型效率,降低硬件门槛,并扩展支持更多编辑类型和分辨率。此外,GEdit-Bench的持续更新将进一步丰富评测场景,助力行业形成统一的性能标准。AIbase将持续关注Step1X-Edit的进展,为您带来开源AI领域的最新动态。

体验地址:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

相关资讯

阶跃星辰开源图像编辑模型 Step1X-Edit:身份一致性保持、区域级控制

该模型总参数量为 19B,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
4/27/2025 11:39:44 AM
清源

上海AI实验室开源InternVL3系列多模态大型语言模型

4月11日,OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。 与前代产品InternVL2.5相比,InternVL3在多模态感知和推理能力上有了显著提升,其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。
4/14/2025 9:01:07 AM
AI在线

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil
2/4/2024 3:25:00 PM
机器之心
  • 1