腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

腾讯混元文生图大模型（混元 DiT）今日宣告开源小显存版本，仅需 6G 显存即可运行，对运用个人电脑本地部署的开发者比较友好。此外，腾讯宣告混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作文生图数据集。腾讯混元 DiT 模型升级腾讯混元 DiT 模型宣告了三大更新：推出小显存版本与 Kohya 训练界面，并升级至 1.2 版本，进一步降低运用门槛的同时提高图片质量。基于 DiT 架构的文生图模型生成图片质感更佳，但对显存的要求却非常高

腾讯混元文生图大模型（混元 DiT）今日宣告开源小显存版本，仅需 6G 显存即可运行，对运用个人电脑本地部署的开发者比较友好。

此外，腾讯宣告混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语，针对文生图场景进行专门优化，可帮助开发者快速制作文生图数据集。

腾讯混元 DiT 模型升级

腾讯混元 DiT 模型宣告了三大更新：推出小显存版本与 Kohya 训练界面，并升级至 1.2 版本，进一步降低运用门槛的同时提高图片质量。

基于 DiT 架构的文生图模型生成图片质感更佳，但对显存的要求却非常高，混元 DiT 因此推出小显存版本，最低 6G 显存即可运行优化推理框架，对运用个人电脑本地部署的开发者比较友好。

经过与 Hugging Face 合作，小显存版本、LoRA 与 ControlNet 插件，都已经适配到 Diffusers 库中。开发者无需下载原始代码，仅用三行代码仅可调用，简化了运用成本。

同时，混元 DiT 宣告接入 Kohya，让开发者可以低门槛地训练专属 LoRA 模型。

Kohya 是一个开源的、轻量化模型微调训练服务，提供了图形化的用户界面，被广泛用于扩散模型类文生图模型的训练。

用户可以通过图形化界面，完成模型的全参精调及 LoRA 训练，无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构，可以低成本与 WebUI 等推理界面结合，实现一整套“训练-生图”工作流。

混元 Captioner

在提高模型易用性的同时，腾讯混元团队最新开源了打标模型 —— 混元 Captioner。

借助打标模型，开发者可以快速生成数据集。具体来说，文生图开发者将原始图片集导入混元 Captioner，后者将生成标注；也可以导入图片与原始形容，利用混元 Captioner 过滤其中的无关信息，并完善和优化图片形容，以提高数据质量。

目前，业界对于图片形容文本的生成，主要运用通用多模态 Captioner 模型，存在形容过于简单或繁琐（与画面形容的无关信息过多）、缺少配景学问导致无法识别知名人物和地标等问题，并且许多模型并非中文原生，中文形容不够精准。

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

▲ 混元 Captioner 对图片形容进行结构化与准确度提高混元

Captioner 模型号称针对文生图场景专门进行优化：

构建了结构化的图片形容体系；

在模型层面，通过注入人工标注、模型输出、公开数据等多种来源提高 Caption 形容的完整性；

注入知名文学作品形象、地标、食物、动物、中国元素与学问等配景学问。

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

▲ Capiton 模型的配景学问更好，能够识别宫保鸡丁

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

▲ Captioner 模型结构化图片形容体系

IT之家附腾讯混元开源文生图大模型相关链接：

官网：https://dit.hunyuan.tencent.com/

代码：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

论文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

{{userData.name}}已认证

腾讯混元 DiT 文生图大模型开源 6G 小显存版本，一同开源打标模型

腾讯混元 DiT 模型升级

混元 Captioner

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

商汤科技 CEO 徐立：AI 行业很热但未到“超等时候”，需要利用来支撑

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

{{userData.name}}已认证

腾讯混元 DiT 模型升级

混元 Captioner

一张照片创造 1 分钟人物视频，商汤发布首个“可控”人物视频生成大模型 Vimi

商汤科技 CEO 徐立：AI 行业很热但未到“超等时候”，需要利用来支撑

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

字节跳动清华AIR成立联合研究中心推动大模型产学研合作