在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。
如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的天生结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。
有人说,AI 要是动起笔来,那真是没人类什么事了。
但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。
近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。
论文链接:https://arxiv.org/pdf/2210.06774.pdf
田渊栋曾在知乎上介绍这个模型:
Re^3 的想法极为简单,通过设计 prompt 让它天生一样性强的小说,完全不需要微调大模型。我们跳出语言模型的逐词天生的线性逻辑,改用层次化天生方式:先在 Plan 阶段天生小说脚色,脚色的各种属性和纲目,然后在 Draft 阶段给定小说纲目和脚色,反复天生具体的段落,这些具体段落由 Rewrite 阶段筛选,挑出与前一段落高度相关的天生段落,而丢弃关系不大的(这需要训练一个小模型),最后在 Edit 阶段修正一些明显的究竟错误。
办法介绍
Re^3 的思路是通过递归 Reprompt 和调整天生更长的小说,这更符合人类作家的创作过程。Re^3 将人类写作过程分解为方案、底稿、改写和编纂 4 个模块。
方案(Plan)模块
如下图 2 所示,方案模块会将小说条件(Premise)扩展为背景、人物脚色和小说纲目。首先,背景是小说条件简单的一句话扩展,运用 GPT3-Instruct-175B (Ouyang et al.,2022) 获得;然后,GPT3-Instruct175B 再天生脚色名称,并根据条件和背景天生脚色描述;最后,该办法 prompt GPT3-Instruct175B,以编写小说纲目。方案模块中的组件是通过 prompt 自己天生的,将被反复运用。
底稿(Draft)模块
针对方案模块得到的每一条纲目,底稿模块会继续天生几个小说段落。每个段落都是从结构化 prompt 天生的固定长度续写,结构化 prompt 由递归 reprompt 形成,底稿模块如下图 3 所示。
改写(Rewrite)模块
天生器的第一个输出通常是低质量的,就像人们完成的初稿,二稿可能需要在反馈的基础上改写一篇文章。
改写模块通过根据与先前段落的连贯性和与当前纲目点的相关性对底稿模块输出重新排序来模拟改写过程,如下图 4 所示。
编纂(Edit)模块
与大幅改写不同的是,编纂模块是对通过方案、底稿和改写模块天生的段落的局部编纂,进一步完善天生内容。具体来说,目标是消除长序列的究竟不一样。当人们在校对时发现一个小的究竟不连续,可能只是简单地编纂一下有问题的细节,而不是对高层次的文章方案进行重大修改或进行实质性的改写。编纂模块通过两个步骤来模仿人类创作的这个过程:检测究竟的不一样,并对其进行纠正,如下图 5 所示。
评价
在评价环节,研究者将任务设定为在一个简短的初始前情下天生一个小说。由于「小说」很难用鉴于规则的方式来定义,研究者没有对可接受的输出施加任何鉴于规则的约束,而是通过几个人为注释的目标来评价。为了天生初始条件,研究者用 GPT3-Instruct-175B 进行了 prompt,以获得 100 个不同的前情。
Baseline
由于先前的办法与 Re^3 相比更侧重于短小说,所以很难直接比较。于是研究者运用了以下两个鉴于 GPT3-175B 的基线:
1. ROLLING,通过 GPT3-175B 一次天生 256 个 token,运用前情和所有先前天生的小说文本作为 prompt,如果超过 768 个 token,则左截断 prompt。因此,「滚动窗口」最大上下文长度是 1024,与 RE^3 中运用的最大上下文长度相同。在天生了 3072 个 token 后,研究者运用了与 RE^3 相同的小说结束机制。
2. ROLLING-FT,与 ROLLING 相同,只是 GPT3-175B 首先会对 WritingPrompts 小说中的几百个段落进行微调,这些段落至少有 3000 个 token。
目标
研究者运用的几个评价目标包括:
1、有趣。对读者来说是有趣的。
2、连贯性。情节连贯。
3、相关性。忠实于最初的前情。
4、类人。被判断为是人类写的。
此外,研究者还追踪了天生的小说有多少次出现以下几方面的写作问题:
1、叙事。叙述或风格上的令人震惊的变化。
2、不一样。与究竟不符或包含非常奇怪的细节。
3、混乱。令人困惑或难以理解。
4、重复性。高度的重复性。
5、不流畅。频繁的语法错误。
结果
如表 1 所示,Re^3 在根据预期前情写一个较长的小说方面非常有效,同时能保持连贯的总体情节,验证了研究者受人类写作过程启发而做出的设计选择,以及递归 reprompting 天生办法。与 ROLLING 和 ROLLING-FT 相比,Re^3 在连贯性和相关性方面都有明显提高。注释者还将 Re^3 的小说标记为「具有明显较少的冗杂写作问题」。
Re^3 表现出了绝对意义上的强大性能:注释者认为在两次对比中,Re^3 的小说分别有 83.3% 和 80.0% 是由人类写的。表 2 显示了 Re^3 的一个经过大量删节的故究竟例,可以看出很强的连贯性和前情相关性:
尽管如此,研究者仍从质量上观察到 Re^3 仍有很大的改进空间。
表 3 中显示了两个共同的问题。首先,尽管 Re^3 几乎总是在某种程度上遵循小说前情,但与基线小说不同,它们可能无法捕捉到条件的所有部分,也可能无法遵循方案模块天生的部分纲目(例如,表 3 中前情和纲目的第一部分)。其次,由于改写模块,特别是编纂模块的失败,仍然有一些混乱的段落或矛盾的语句:例如,在表 3 中,人物 Jaxon 在某些地方有一个矛盾的身份。
不过,与滚动窗口办法(rolling window)不同,Re^3 的方案办法能够「自我纠正」,回到最初的情节。表 3 中小说的后半部分说明了这种能力。
分析
消融实验
研究者探讨了 Re^3 的各个模块的相对贡献:方案、底稿、改写和编纂,并依次对每个模块进行消融实验。Draft 模块除外,因为尚不清楚没有它的话系统会如何运行。
表 4 显示,模仿人类方案和改写过程的「方案」和「改写」模块对整体情节的连贯性和条件的相关性至关重要。然而,「编纂」模块对这些目标的贡献很小。研究者还从质量上观察到,在 Re^3 的最终小说中仍然存在许多连贯性问题,这些问题没有被编纂模块所解决,但这些问题可以由一个细心的人类编纂来解决。
「编纂」模块的进一步分析
研究者运用了一个可控的环境,以研究「编纂」模块是否至少能检测到鉴于脚色的究竟不一样。检测子系统称为 STRUCTURED-DETECT,避免与整个编纂模块混为一谈。
如表 5 所示,当检测鉴于脚色的不一样时,根据标准的 ROC-AUC 分类目标,STRUCTUREDDETECT 优于两个基线。ENTAILMENT 系统的 ROC-AUC 得分勉强优于偶然表现(0.5),突出了核心挑战,即检测系统必须是压倒性的精确。此外,STRUCTURED-DETECT 的设计是为了扩展到较长的段落。研究者假设,与基线相比,性能差距会在有较长输入的评价中扩大。
即使在这种简化的环境中,所有系统的绝对性能仍然很低。此外,许多天生的完整小说包含非脚色的不一样,例如背景与当前场景的不一样。虽然研究者没有正式分析 GPT-3 编纂 API 在检测到不一样之处后的修正能力,但也观察到它可以修正孤立的细节,而在处理较大的变化时会很吃力。
综上所述,来自检测和修正子系统的复合错误使得本研究目前的编纂模块很难在数千字的范围内有效地改善究竟的一样性,而不同时引入不必要的变化。
原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/29258