AI在线 AI在线

字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果

Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。 这样不管是中文、日文、韩文还是其他语言都可以精准的生成! 从某种意义上说也算是打破了AI图文生成语言的壁垒!

Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。这样不管是中文、日文、韩文还是其他语言都可以精准的生成!从某种意义上说也算是打破了AI图文生成语言的壁垒!

图片

相关链接

  • 文章:https://arxiv.org/abs/2504.19724
  • 主页:https://reptext.github.io/
  • 代码:https://github.com/Shakker-Labs/RepText
  • 试用:https://huggingface.co/spaces/Shakker-Labs/RepText

论文介绍

R e p T e x t :通过复制渲染视觉文本尽管当代的文本到图像生成模型在生成视觉吸引力方面取得了显著突破,但它们生成精确灵活的排版元素(尤其是非拉丁字母)的能力仍然受到限制。这种固有限制主要源于文本编码器无法有效处理多语言输入或训练集中多语言数据分布的偏差。为了满足特定语言需求的文本渲染,一些研究采用专用文本编码器或多语言大型语言模型来替换现有的单语言编码器,并从头开始重新训练模型,以增强基础模型的原生渲染能力,但这不可避免地会造成高资源消耗。其他研究通常利用辅助模块对文本和字形进行编码,同时保持基础模型的完整性以实现可控的渲染。然而,现有研究大多基于 UNet 模型构建,而非近期基于 DiT 模型(SD3.5、FLUX),这限制了它们的整体生成质量。

为了解决这些限制,论文从一个朴素的假设出发,即文本理解只是文本渲染的充分条件,而非必要条件。基于此提出了 RepText,旨在赋能预训练的单语文本转图像生成模型,使其能够以用户指定的字体精准渲染(更准确地说,是复制)多语种视觉文本,而无需真正理解这些字体。具体而言,作者借鉴了 ControlNet 的设置,并额外集成了语言无关的字形和渲染文本位置,从而能够生成协调一致的视觉文本,允许用户根据自身需求自定义文本内容、字体和位置。

为了提高准确率,RepText结合了文本感知损失和扩散损失。此外,为了稳定渲染过程,在推理阶段直接使用带噪声的字形潜在向量进行初始化,而非随机初始化,并采用区域掩码将特征注入限制在文本区域,以避免其他区域的失真。大量的实验验证 RepText 相对于现有方法的有效性。

方法

图片

RepText 旨在通过复制字形来实现基于最新单语基础模型的文本渲染。并未使用额外的图像或文本编码器来理解单词,而是通过使用以 Canny 和位置图像为条件的文本控制网络 (ControlNet) 来训练模型复制字形。此外,作者创新性地在初始化过程中引入了字形潜在复制,以提高文本准确性并支持色彩控制。最后采用区域遮罩方案来确保良好的生成质量并防止背景区域受到干扰。论文的贡献主要有三方面:

  1. 提出了 RepText,一个用于可控多语言可视化文本渲染的有效框架。
  2. 创新性地引入了字形潜在复制,以提高排版准确性并实现色彩控制。此外还采用了区域遮罩,以获得良好的视觉保真度且不受背景干扰。
  3. 定性实验表明,提出的方法优于现有的开源方法,并取得了与原生多语言闭源模型相当的结果。

图片

RepText 的推理框架及其突出策略:(1)从无噪声字形潜在特征进行复制,提高文本准确率并实现色彩控制。(2)对文本区域采用区域遮罩,避免非文本区域的干扰,确保整体质量。

与之前方法比较

图片图片

与其他作品的兼容性

图片图片图片

相关资讯

CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM

视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。 这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。 PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。
2/20/2025 11:37:00 AM
AI在线
  • 1