Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

作者： 2025-04-08 03:44

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：

失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……

还被做成表情包调侃，总结起来就是一个“差评如潮”。

具体来看，大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

反映在榜单上，成绩也相当割裂。

发布时的官方测评（LiveCodeBench）分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中，情况大多直接逆转，排名末尾。

让人不由得怀疑，这个竞技场排名到底是数据过拟合，还是刷票了。

就在Llama 4即将发布前几天，Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职，总之就是不太妙。

Llama 4怎么了?

大模型关注者们火热实测吐槽之际，一则有关Llama 4的匿名爆料，突然引起轩然大波：

有网友称自己已向Meta GenAI部门提交提交辞职，并要求不要署名在Llama 4的技术报告上。

原贴发布在海外留学求职交流平台一亩三分地，在国内也引起很多讨论。

此爆料尚未得到证实，但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子，至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

还有Meta前员工借此话题贴出2024年11月的一项研究，指出从Llama 1开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题，在EQBench测评基准的的长文章写作榜中，Llama 4系列也直接垫底。

榜单维护者_sqrkl说明了具体情况。

测试非常简单，模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划，最终每轮写1000字，重复8轮以上。

由Claude-Sonnet 3.7来当裁判，先对每个章节单独打分，再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复，以及写作非常公式化。

对此结果，有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据，使用了更多的合成数据。

在这场诉讼中，许多作家发现自己的作品可能被用于AI训练，还到伦敦的Meta办公室附近发起抗议。

Llama 4发布后的种种，让人联想到年初的匿名员工爆，有网友表示当初只是随便看看，现在却开始相信了：

在这条爆料中，Deepseek v3出来之后，训练中的Llama4就显得落后了，中层管理的薪水都比DeepSeek V3的训练成本都高，Meta内部陷入恐慌模式。

让人不由得感叹，DeepSeel-R1横空出世仅仅两个月时间，却像过了几辈子。

参考链接：[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html[3]https://x.com/suchenzang/status/1909070231517143509https://x.com/TheAhmadOsman/status/1908833792111906894

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

1/20/2025 8:46:00 AM 量子位

浙大校友推出AI代码测试神器，30分钟打造无bug网站

在人工智能迅速发展的今天，程序员们终于迎来了一款革命性的工具 ——TestSprite2.0。这款由浙江大学校友团队开发的智能测试平台，声称可以在30分钟内创建一个全新的网站，而且全程不需要人工干预。更让人兴奋的是，AI 生成代码的准确率也从42% 提升至93%，彻底颠覆了传统软件开发的模式。

7/25/2025 11:51:23 AM AI在线

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA

Meta 在上个月末发布了一系列开源大模型 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。由于模型参数量较少，只需单张显卡即可运行，LLaMA 因此被称为 ChatGPT 的平替。发布以来，已有多位开发者尝试在自己的设备上运行 LLaMA 模型，并分享经验。

3/14/2023 2:16:00 PM 机器之心

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

Llama 4怎么了?

相关资讯

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

浙大校友推出AI代码测试神器，30分钟打造无bug网站

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA