第一个逾越ChatGPT的开源模型来了？网友并不买账

开源模型真的超过 ChatGPT了吗？

大模型火了起来，每天我们都能看到各种「大」新闻。

今天，又来了个 Big News：新开源的一个大模型逾越了 ChatGPT。

具体是什么呢？

OpenLLM 是一系列在极小、多样且高质量的多轮对话数据集上进行微调的开源语言模型。

这两日，作者们革新了该系列模型，并传播鼓吹：OpenChat 模型在 AlpacaEval 上获得 80.9% 的胜率；在 Vicuna GPT-4 评价上，功能抵达 ChatGPT 的 105%。

第一个逾越ChatGPT的开源模型来了？网友并不买账

也就是上面推特截图中，两位博主传播鼓吹的开源模型逾越 ChatGPT/GPT-3.5。

OpenLLM 的特色是鉴于 LLaMA 开源模型，在只有 6,000 个 GPT4 对话的数据集上进行微调，从而抵达非常好的效果。

此次革新的模型型号与评审结果如下：

OpenChat：鉴于 LLaMA-13B，上下文长度为 2048。

在Vicuna GPT-4 评价中抵达 ChatGPT 分数的 105.7% 。

在 AlpacaEval 上抵达 80.9% 的胜率。

OpenChat-8192：鉴于 LLaMA-13B，扩展上下文长度为 8192。

在 Vicuna GPT-4 评价中抵达 ChatGPT 分数的 106.6% 。

在 AlpacaEval 上实现 79.5% 的胜率。

也就是说，两个模型在 Vicuna GPT-4 评价榜单上结果都逾越了 ChatGPT。

但这种评审 + 宣传的方式似乎并不被大家认可。

网友：浮夸

在 Twitter 讨论中，有网友表示，这就是浮夸的说法。

第一个逾越ChatGPT的开源模型来了？网友并不买账

在此「大」新闻公布后，Vicuna 官方也迅速做出了回应。

实际上，Vicuna 的尝试基准已被弃用，现在使用的是更高级的 MT-bench 基准。该基准的尝试，有着更加具有挑战性的任务，并且解决了 gpt4 评价中的偏差以及限制。

在 MT-bench 上，OpenChat 功能表现与 wizardlm-13b 相似。也就是说，开源模型与 GPT-3.5 仍然有着一定差距。这也正是 MT-bench 所强调的内容 —— 开源模型不是完美无缺的，但是这将迈向更好的聊天机器人评价。

第一个逾越ChatGPT的开源模型来了？网友并不买账

前几日，机器之心报道内容《「羊驼」们走到哪一步了？研究表示：最好的能抵达 GPT-4 功能的 68%》，也对开源模型的功能进行了评价。

评价还表示，在任何给定的评价中，最佳模型的平均功能抵达 ChatGPT 的 83%、GPT-4 的 68%，这表示需要进一步构建更好的基础模型和指令调优数据以缩小差距。

感兴趣的读者可以查看原文。

{{userData.name}}已认证

第一个逾越ChatGPT的开源模型来了？网友并不买账

13万个解释神经元，5300万个突触，普林斯顿大学等发布首个完整「成年果蝇」大脑不断组

大型言语模型与常识图谱配合钻研综述：两大技术优势互补

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

{{userData.name}}已认证

13万个解释神经元，5300万个突触，普林斯顿大学等发布首个完整「成年果蝇」大脑不断组

大型言语模型与常识图谱配合钻研综述：两大技术优势互补

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现

字节跳动清华AIR成立联合研究中心推动大模型产学研合作