AI在线 AI在线

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。 Yann LeCun也亲自下场转发撑场子了。 CWM究竟有哪些创新点?

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

Yann LeCun也亲自下场转发撑场子了。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

CWM直接发布了3个不同的Checkpoint,用于不同目的。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

相关资讯

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
5/29/2025 9:18:20 AM

Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM

华为又开源了个大的:超大规模MoE推理秘籍

超大规模MoE模型(如DeepSeek),到底该怎么推理才能做到又快又稳。 现在,这个问题似乎已经有了标准答案——华为一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给开源了! 这个新开源项目名叫Omni-Infer,整体来看,它对于企业用户来说是非常利好的。
7/2/2025 8:55:00 AM
  • 1