调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

UltraChat 解决了数据荒的一大难题。

自 ChatGPT 发布以来,这段时间对话模型的热度只增不减。当我们赞叹这些模型表现惊艳的同时,也应该猜到其背后巨大的算力和海量数据的支持。

单就数据而言,高质量的数据至关重要,为此 OpenAI 对数据和标注工作下了很大力气。有多项研究表明,ChatGPT 是比人类更加可靠的数据标注者,如果开源社区可以获得 ChatGPT 等强大语言模型的大量对话数据,就可以训练出性能更好的对话模型。这一点羊驼系列模型 ——Alpaca、Vicuna、Koala—— 已经证明过。例如,Vicuna 运用从 ShareGPT 收集的用户共享数据对 LLaMA 模型举行指令微调,就复刻了 ChatGPT 九成功力。越来越多的证据表明,数据是训练强大语言模型的第一生产力。

ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。ShareGPT 上的数据是开放但琐碎的,需要研究人员自己收集整理。如果能够有一个高质量的,覆盖范围广泛的数据集,开源社区在对话模型研发方面将会事半功倍。

鉴于此,最近一个名为 UltraChat 的项目就系统构建了一个超高质量的对话数据集。项目作者尝试用两个独立的 ChatGPT Turbo API 举行对话,从而天生多轮对话数据。

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

项目地址:https://github.com/thunlp/UltraChat

数据集地址:http://39.101.77.220/

数据集交互地址:https://atlas.nomic.ai/map/0ce65783-c3a9-40b5-895d-384933f50081/a7b46301-022f-45d8-bbf4-98107eabdbac

具体而言,该项目旨在构建一个开源、大规模、多轮的鉴于 Turbo APIs 的对话数据,方便研究者开发具有通用对话能力的强大语言模型。此外,考虑到隐私保护等因素,该项目不会直接运用互联网上的数据作为提示。为了确保天生数据质量,研究者在天生过程中采用了两个独立的 ChatGPT Turbo API,其中一个模型扮演用户角色来天生题目或指令,另一个模型天生反馈。

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

如果直接运用 ChatGPT 鉴于一些种子对话和题目让其自由天生,容易出现话题单一、内容重复等题目,从而难以保证数据本身的多样性。为此,UltraChat 对对话数据覆盖的中心和任务类型举行了系统的分类和设计,还对用户模型和回复模型举行了细致的提示工程,它包含三个部分:

关于世界的题目(Questions about the World):这部分对话来自于对现实世界中的概念、实体和对象相干的广泛询问。所涉及的中心涵盖科技、艺术、金融等多个领域。

写作与创作(Writing and Creation):这部分对话数据着重于指示 AI 从头举行创作一个完整的文本质料,并在此基础上举行后续的提问或进一步指导以完善写作,撰写的质料内容类型包括文章、博客、诗歌、故事、戏剧,电子邮件等等。

对于现有资料的辅助改写(Writing and Creation):该对话数据是鉴于现有资料天生的,指令包括但不限于改写、续写、翻译、归纳、推理等,涵盖中心同样非常多样。

这三部分数据覆盖了大部分用户对于 AI 模型的要求。同时,这三类数据也会面临着不同的挑战,为此需要不同的构造方法。

例如,第一部分的数据主要挑战在于如何在总量为几十万组对话中尽量广泛地涵盖人类社会中的常见知识,为此研究者从自动天生的中心和来源于 Wikidata 的实体两个方面举行了筛选和构造。

第二、三部分的挑战主要来自于如何模拟用户指令,并在后续对话中让用户模型的天生尽量多样化的同时又不偏离对话的最终目标(按照要求天生质料或改写质料),为此研究者对用户模型的输入提示举行了充分的设计和实验。在构造完成之后,作者还对数据举行了后处理以削弱幻觉题目。

目前,该项目已经发布了前两部分的数据,数据量为 124 万条,应该是目前开源社区内规模最大的相干数据集。内容包含在现实世界中丰富多彩的对话,最后一部分数据将在未来发布。

世界题目数据来源于 30 个具有代表性和多样性的元中心,如下图所示:

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

鉴于以上元中心,该项目天生了 1100 + 子中心用于数据构建;

对于每一个子中心,最多天生 10 个具体题目;

然后运用 Turbo API 为 10 个题目中的每一个天生新的相干题目;

对于每一个题目,如上所述迭代地运用两个模型天生 3~7 轮对话。

此外,该项目从维基数据中收集了最常用的 10000 个命名实体;运用 ChatGPT API 为每一个实体天生 5 个元题目;对于每一个元题目,天生 10 个更具体的题目和 20 个相干但一般的题目;采样 20w 个特定题目和 25w 个一般题目以及 5w 个元题目,并为每一个题目天生了 3~7 轮对话。

接下来我们看一个具体的例子:

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

我们在 UltraChat 平台上测试了数据搜索效果。例如,输入「音乐(music)」,系统会自动搜索出 10000 组与音乐相干的 ChatGPT 对话数据,并且每组都是多轮对话

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

输入关键词「数学(math)」的搜索结果,有 3346 组多轮对话:

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

目前,UltraChat 涵盖的信息领域已经非常多,包括医疗、教育、运动、环保等多个话题。同时,笔者尝试运用开源的 LLaMa-7B 模型在 UltraChat 上举行监督的指令微调,发现仅仅训练 10000 步后就有非常可观的效果,一些例子如下:

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

世界知识:分别列出 10 个很好的中国和美国大学

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

想象题目:当时空旅行成为可能后,有什么可能的后果?

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

三段论:鲸鱼是鱼吗?

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

假设题目:证明成龙比李小龙更出色

调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat来了

总体来说,UltraChat 是一个高质量、范围广的 ChatGPT 对话数据集,可以和其它数据集结合,显著地提升开源对话模型的质量。目前 UltraChat 还只放出了英文版,但也会在未来放出中文版的数据。感兴趣的读者快去探索一下吧。

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25327

(0)
上一篇 2023年4月21日 下午5:15
下一篇 2023年4月22日 上午12:44

相关推荐

  • 斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲

    50 个视频任君进修!从对话智能体到搜索查询,自然言语了解(NLP)是当今许多最令人兴奋的技术的基础。如何建立这些模型来高效、可靠地了解言语?如果你还没有那么清楚的话,是否会找个课程来听呢?但是有些课

    2023年10月7日
  • 国内百模大战正盛,海致科技推出首个常识图谱交融大模型使用平台

    从 ChatGPT 引发的大众追捧到 “百模大战”,大语言模型和天生式 AI 正在以前所未有的速度改变人类的生活和生产方式。全球用户很快发现,在与大语言模型交互的过程中,会碰到它 “一本正经的胡说八道”,输出似是而非甚至荒谬的结果,这也在不断引发 C 端用户 “调侃” 大模型的 “狂欢”。然而,这种被称作 “大模型幻觉” 的手艺特点却阻碍了它在 B 端和工业界的使用与发展。

    2023年9月8日
  • ML Ops:数据品质是关键

    ML Ops 是 AI 领域中一个相对较新的概念,可解释为「机械进修操作」。如何更好地管理数据科学家和操作人员,以便有效地开发、布署和监视模型?其中数据品质至关重要。本文将介绍 ML Ops,并强调数

    2020年10月15日
  • AI可解释性及其在蚂蚁安全领域的应用简介

    可解释性相关算法作为蚂蚁集团提出的可信AI技术架构的重要组成部分,已大量应用于蚂蚁集团安全风控的风险识别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控领域具体应用为例,尤其关注

    2022年4月24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注