AI在线 AI在线

腾讯混元发布并开源图像模型2.1,支持原生2K生图

9月9日深夜,腾讯发布并开源混元最新的生图模型“混元图像2.1(HunyuanImage 2.1)” 。 该模型综合能力业界领先,支持原生2K高清生图。 混元图像2.1模型在开源后,在Hugging Face模型热度榜热度迅速攀升,一跃而成全球第三热门模型。

9月9日深夜,腾讯发布并开源混元最新的生图模型“混元图像2.1(HunyuanImage 2.1)” 。该模型综合能力业界领先,支持原生2K高清生图。

混元图像2.1模型在开源后,在Hugging Face模型热度榜热度迅速攀升,一跃而成全球第三热门模型。在该榜单前八名中,腾讯混元模型家族包揽三席。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

同时,腾讯混元团队透露,即将发布原生多模态图像生成模型。

混元图像2.1在2.0架构的基础上全面升级,更加注重生成效果与性能之间的平衡。新版本不仅支持中英文的原生输入,还能够实现中英文文本与复杂语义的高质量生成。同时,在生成图片的整体美学表现和适用场景的多样性方面,都有了显著提升。

这意味着,设计师、插画师等视觉创作者能够更加高效、便捷地将自己的创意转化为画面。无论是生成高保真的创意插画,还是制作包含中英文宣传语的海报和包装设计,亦或是复杂的四格漫画与连环画,混元图像2.1都能为创作者提供快速、高质量的支持。

混元图像2.1是一款全面开源的基座模型,不仅具备业界领先的生成效果,还能够灵活适配社区多样化的衍生需求。目前,混元图像2.1的模型权重和代码已在Hugging Face、GitHub等开源社区正式发布,个人和企业开发者均可基于这一基础模型开展研究,或开发各类衍生模型与插件。

得益于更大规模的图文对齐数据集,混元图像2.1在复杂语义理解和跨领域泛化能力上有了显著提升。它支持最长达1000个tokens的提示词,可精准生成场景细节、人物表情和动作,实现多物体的分别描述与控制。此外,混元图像2.1还能够对图像中的文字进行精细控制,使文字信息与画面自然融合。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

(混元图像2.1亮点1:模型对复杂语义理解能力强,支持多主体分别描述与精确生成。)

腾讯混元发布并开源图像模型2.1,支持原生2K生图

(混元图像2.1亮点2:对图像中的文字和场景细节的把控更为稳定。)

腾讯混元发布并开源图像模型2.1,支持原生2K生图

(混元图像2.1亮点3:支持风格丰富,如真人、漫画与搪胶手办等,并具备较高美感。)

腾讯混元图像模型2.1处于开源模型中的SOTA水平。

从 SSAE(Structured Semantic Alignment Evaluation) 的评估结果上看,腾讯混元图像模型2.1在语义对齐上目前达到了开源模型上最优的效果,并且非常接近闭源商业模型 (GPT-Image) 的效果。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

同时,GSB(Good Same Bad) 评测结果表明,HunyuanImage 2.1的图像生成质量与闭源商业模型Seedream3.0相当,同时相较于同类开源模型Qwen-Image略优。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

混元图像2.1模型不仅采用了海量训练数据,还利用结构化、不同长度、内容多样的caption,极大提升了对文本描述的理解能力。在caption模型中,引入了OCR和IP RAG专家模型,有效增强了对复杂文字识别和世界知识的响应能力。

腾讯混元发布并开源图像模型2.1,支持原生2K生图

为大幅降低计算量、提升训练和推理效率,模型采用了32倍超高压缩倍率的VAE, 并使用dinov2对齐和repa loss来降低训练难度。因此,模型能高效原生生成2K图。

在文本编码方面,混元图像2.1配备了双文本编码器:一个MLLM模块用于进一步提升图文对齐能力,另一个ByT5模型则增强了文字生成表现力。整体架构为17B参数的单/双流DiT模型。

此外,混元图像2.1还在17B参数量级的模型上解决了平均流模型(meanflow)的训练稳定性问题,将模型推理步数由100步蒸馏到8 步,显著提升推理速度的同时保证了模型原有的效果。

同步开源的混元文本改写模型(PromptEnhancer)是业内首个系统化、工业级的中英文改写模型,能够对用户的文本指令进行结构化优化,丰富视觉表达,使改写后的文本生成图像的语义表现得到大幅提升。

腾讯混元在图像生成领域持续深耕,曾发布首个开源的中文原生DiT架构图像大模型——混元DiT,以及业界首个商用级实时生图模型——混元图像2.0。此次推出的原生2K模型混元图像2.1则在效果与性能之间实现了更好的平衡,能够满足用户和企业在多样化视觉场景下的多种需求。

同时,腾讯混元坚定拥抱开源,陆续开放了多种尺寸语言模型,图像、视频、3D等完整多模态生成能力和工具集插件,提供接近商业模型性能的开源基座。图像、视频衍生模型数量总数达到3000个,混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。

附项目相关链接,

腾讯混元官网:

https://hunyuan.tencent.com/image

Github:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1

Hugging Face:

https://huggingface.co/tencent/HunyuanImage-2.1

相关资讯

抢疯了,腾讯给大模型人才,定了一个前所未有的标准

「21 世纪什么最贵?人才!」二十年前的黎叔语录,现在听来也不过时。这两年,大模型赛道风起云涌。科技公司们全力投入生成式 AI 技术的研发,期待将新的突破整合到自家产品中。OpenAI 是一个非常成功的样本,并受到了研究员、工程师和投资人们的广泛关注与深刻讨论:为什么是 OpenAI?它的成功不只来自于多年的坚持技术探索、投资者不断注入的资金,更重要的是一批顶尖 AI 研究人员的聚集。我们能看到,在 ChatGPT、Sora、GPT-4o 等划时代产品的背后,有一长串名单的核心贡献者,一家科技公司想要持续「伟大」,
6/21/2024 3:37:00 PM
机器之心

腾讯全面展示AI时代产品应用图,发力3D世界模型与具身智能平台Tairos

在2025世界人工智能大会腾讯论坛上,腾讯重磅发布混元3D世界模型、具身智能平台Tairos(钛螺丝)等AI最新技术成果,并带来智能体开发平台等产品的全面升级,首次完整展示面向AI时代的产品应用全景图。 据介绍,腾讯此次推出的这套**“1 3 N”全景体系**,以腾讯自研的混元大模型为核心引擎,构建了一个涵盖平台能力与多元应用的完整架构。 该体系覆盖了面向B端和C端的智能体开发平台,面向机器人领域的腾讯具身智能开放平台,以及分布在多个行业场景中的丰富AI应用与智能体产品矩阵。
7/27/2025 11:41:52 AM
AI在线

院士、委员、专家共议“双智建设”:场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施,已经成为日常生活中随处可见的元素。2021年,住建部和工信部将16个城市列为双智试点城市,探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路?双智的未来该走向何处?这些问题成为当前双智行业关注的重点。近日,由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“,共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研
3/15/2022 4:10:00 PM
新闻助手
  • 1