论文插图也能主动生成了，用到了分散模型，还被ICLR接收

如果论文中的图表不用绘制，对于研究者来说是不是一种便利呢？有人在这方面进行了探索，利用文本描写生成论文图表，结果还挺有模有样的呢！

生成式 AI 已经风靡了人工智能社区，无论是个人还是企业，都开始热衷于创建相关的模态转换应用，比如文生图、文生视频、文生音乐等等。

最近呢，来自 ServiceNow Research、LIVIA 等科研机构的几位研究者尝试基于文本描写生成论文中的图表。为此，他们提出了一种 FigGen 的新方法，相关论文还被 ICLR 2023 收录为了 Tiny Paper。

论文地址：https://arxiv.org/pdf/2306.00800.pdf

也许有人会问了，生成论文中的图表有什么难的呢？这样做对于科研又有哪些帮助呢？

科研图表生成有助于以简洁易懂的方式传播研究结果，而主动生成图表可以为研究者带来很多优势，比如节省时间和精力，不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。

然而生成图表也面临一些挑战，它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图象差别，论文图表中的概念可能有差别的表示形式，需要细粒度的理解，例如生成一个神经网络图会涉及到高方差的不适定问题。

因此，本文研究者在一个论文图表对数据集上训练了一个生成式模型，捕获图表组件与论文中对应文本之间的关系。这就需要处理差别长度和高技术性文本描写、差别图表样式、图象长宽比以及文本渲染字体、巨细和方向问题。

在具体实现过程中，研究者受到了最近文本到图象成果的启发，利用分散模型来生成图表，提出了一种从文本描写生成科研图表的潜伏分散模型 ——FigGen。

这个分散模型有哪些独到之处呢？我们接着往下看细节。

模型与方法

研究者从头开始训练了一个潜伏分散模型。

首先进修一个图象主动编码器，用来将图象映照为压缩的潜伏表示。图象编码器运用 KL 丧失和 OCR 感知丧失。调节所用的文本编码器在该分散模型的训练中端到端进行进修。下表 3 为图象主动编码器架构的详细参数。

然后，该分散模型直接在潜伏空间中进行交互，执行数据损坏的前向调度，同时进修利用时间和文本条件去噪 U-Net 来恢复该过程。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

至于数据集，研究者运用了 Paper2Fig100k，它由论文中的图表文本对组成，包含了 81,194 个训练样本和 21,259 个验证样本。下图 1 为 Paper2Fig100k 测试集中运用文本描写生成的图表示例。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

模型细节

首先是图象编码器。第一阶段，图象主动编码器进修一个从像素空间到压缩潜伏表示的映照，使分散模型训练更快。图象编码器还需要进修将潜伏图象映照回像素空间，同时不丢失图表重要细节（如文本渲染质量）。

为此，研究者定义了一个具有瓶颈的卷积编解码器，在因子 f=8 时对图象进行下采样。编码器经过训练可以最小化具有高斯分布的 KL 丧失、VGG 感知丧失和 OCR 感知丧失。

其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在分散过程中从头开始训练的 Bert transformer，其中运用巨细为 512 的嵌入通道，这也是调节 U-Net 的跨注意力层的嵌入巨细。研究者还探索了差别设置下（8、32 和 128）的 transformer 层数量的变化。

最后是潜伏分散模型。下表 2 揭示了 U-Net 的网络架构。研究者在感知上等效的图象潜伏表示中执行分散过程，其中该图象的输入巨细被压缩到了 64x64x4，使分散模型更快。他们定义了 1,000 个分散步骤和线性噪声调度。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

训练细节

为了训练图象主动编码器，研究者运用了一个 Adam 优化器，它的有效批巨细为 4 个样本、进修率为 4.5e−6，期间运用了 4 个 12GB 的英伟达 V100 显卡。为了实现训练稳定性，他们在 50k 次迭代中 warmup 模型，而不运用判别器。

对于训练潜伏分散模型，研究者也运用 Adam 优化器，它的有效批巨细为 32，进修率为 1e−4。在 Paper2Fig100k 数据集上训练该模型时，他们用到了 8 块 80GB 的英伟达 A100 显卡。

实验结果

在生成过程中，研究者采用了具有 200 步的 DDIM 采样器，并且为每个模型生成了 12,000 个样本来计算 FID, IS, KID 以及 OCR-SIM1。稳重运用无分类器指导（CFG）来测试超调节。

下表 1 揭示了差别文本编码器的结果。可见，大型文本编码器产生了最好的定性结果，并且可以通过增加 CFG 的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题，但 FigGen 已经掌握了文本和图象之间的关系。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

下图 2 揭示了调整无分类器指导（CFG）参数时生成的额外 FigGen 样本。研究者观察到增加 CFG 的规模（这在定量上也得到了体现）可以带来图象质量的改善。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

下图 3 揭示了 FigGen 的更多生成示例。要注意样本之间长度的变化，以及文本描写的技术水平，这会密切影响到模型正确生成可理解图象的难度。

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

不过研究者也承认，尽管现在这些生成的图表不能为论文作者提供实际帮助，但仍不失为一个有前景的探索方向。

更多研究细节请参阅原论文。

{{userData.name}}已认证

论文插图也能主动生成了，用到了分散模型，还被ICLR接收

酷家乐x极盾科技：“智能宁静计划平台”助力日均十亿级日记剖析

大语言模型做数据助手，浙大Data-Copilot高效挪用、处置惩罚、可视化数据

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

{{userData.name}}已认证

酷家乐x极盾科技：“智能宁静计划平台”助力日均十亿级日记剖析

大语言模型做数据助手，浙大Data-Copilot高效挪用、处置惩罚、可视化数据

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

开发者成功让 AI 学会打游戏，但用 RTX 3090 神经网络运行《CS:GO》“世界模型”仅有 10 帧

字节跳动清华AIR成立联合研究中心推动大模型产学研合作