逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏，0修改！本地大模型拐点来了!网友：别被大模型叙事带偏了(附指南）

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）起猛了，连老电脑都能跑智谱家新一代的 SOTA 模型了！一篇来自技术人 Simon Willison（Python 知名 Web 框架 Django 的共同创始人）的实测文章，在 Hacker News 上引发热议：“我 2.5 年高龄的旧笔记本，现在不仅能在本地跑千亿参数模型，甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。 ”图片这个模型，正是昨天新鲜出炉的 GLM-4.5 系列。

编辑 | 伊风

出品 | 51CTO技术栈（微信号：blog51cto）

起猛了，连老电脑都能跑智谱家新一代的 SOTA 模型了！

一篇来自技术人 Simon Willison（Python 知名 Web 框架 Django 的共同创始人）的实测文章，在 Hacker News 上引发热议：

“我 2.5 年高龄的旧笔记本，现在不仅能在本地跑千亿参数模型，甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。”

图片

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏，0修改！本地大模型拐点来了!网友：别被大模型叙事带偏了(附指南）

这个模型，正是昨天新鲜出炉的 GLM-4.5 系列。

虽然不像 Qwen Coder 那样专门为编程打造，但根据官方基准测试， GLM-4.5在代码生成上的表现已经逼近 Claude Sonnet 4，属于真正意义上“会写代码的大模型”。

图片

Simon 所用的，是其中参数最少的版本 GLM-4.5 Air：

参数量依然高达 1060 亿，原始模型体积高达 205.78GB。

为了让它能在普通高配笔记本上也能运行，开发者 Ivan Fioravanti 特地制作了一个 3bit、仅 44GB 的量化版本，专为 MLX 框架优化，刚好能在 64GB 内存的 MacBook Pro 上跑起来。

模型地址：https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

这意味着更多普通开发者，也能在本地运行一个千亿参数级的模型了。

Simon 的感叹也很直接：

本地跑大模型的拐点，真的来了！

他回忆道：

“两年前我刚试用 LLaMA，从没想过同一台笔记本，有朝一日能流畅运行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 这些拥有强大能力的模型。”

一台不算新的笔记本 + 一个免费开源模型，就能跑出完整游戏代码。

那么，Simon 是如何在有限算力下实现这一切的？继续往下看。

1.一次生成完整游戏，无需修改！3bit 模型的实战表现令人惊艳

即使被压缩到 3bit、仅 44GB，GLM-4.5 Air 依然保留了完整的 1060 亿参数——这也是它能跑出完整 JavaScript 游戏的底气所在。

作者给出的提示词相当简洁：

写一个实现《太空侵略者》游戏的 HTML 和 JavaScript 页面

模型思考片刻后，生成了一段完整的代码，结构清晰、逻辑自洽

开头的系统提示也很“专业”：

<think>用户想让我用 HTML、CSS 和 JavaScript 创建一个《太空侵略者》游戏。我需要实现以下功能：
玩家飞船：能左右移动并发射子弹
敌方入侵者：成编队移动并反击
分数追踪生命值/健康系统
游戏结束条件 [...]

接着就是完整的 HTML 与 JS 代码，直接可运行，不用修改一行。

调试输出如下：

提示词：14 tokens，生成速度 14.095 tokens/s
生成内容：4193 tokens，生成速度 25.564 tokens/s
峰值内存占用：47.687 GB

这个速度在本地部署模型中相当优秀，接近一些云端托管模型的实际表现（尤其考虑到官方所给的速度数据通常是在零延迟的理想环境下测得）。

内存使用上接近 48GB，意味着一台 64GB 内存的机器可稳稳支持——对本地推理来说，已经非常亲民。

作为对比，2024 年中发布的 LLaMA 3.1 70B 在推理阶段通常需要 350GB–500GB 的 GPU 显存，加上 64GB–128GB 的系统内存，几乎是“服务器级别的门槛”。

作者还测试了一个彩蛋级 benchmark——用这个 3bit 小模型生成一张“骑自行车的鹈鹕”的 SVG 图像。提示词是：

“生成一张鹈鹕骑自行车的 SVG 图像”

生成效果虽然有些“抽象主义”，但不难看出这是一只“云朵风格”的鹈鹕，骑着一辆结构稍微残缺了些但能看懂的自行车。

这说明，尽管精度远不及“满血版 GLM‑4.5”，但本地模型在多模态生成上依然具备可操作性。

上图为本地跑的GLM-4.5 Air生图，下图为GLM-4.5满血版生图👇

图片

2.指南：作者是如何运行GLM-4.5 Air模型的

用的是 mlx-lm 库的主分支（因为需要包含对 GLM4 MoE 的支持），通过 uv 启动：

复制

在 Python 解释器里，用标准的 MLX 模型运行方式：

复制

模型权重会下载到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夹，总计 44GB。

然后：

复制

这样模型就在本地运行了。

3.网友：别被大模型叙事带偏了！低估了旧硬件 + 量化的潜力

作者Simon 总结说：

回顾一下，几乎所有 2025 年发布的新模型都在大幅增强编程能力——而这条路线，已经结出硕果——这些本地模型现在真的非常强大。

还是两年前的那台笔记本，但它不再是 LLaMA 1 的试验田，而是能稳定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等拥有强大智能的新一代模型。

这背后，正是现代量化技术的快速成熟：

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式，如今都已非常稳定。在推理任务中精度损失极小，却能带来成倍的资源节省。

在 Hacker News 上，一位网友犀利指出了当前“Scaling 叙事”的局限：

我认为我们严重低估了现有硬件在这个领域的潜力。
我担心，“痛苦教训（bitter lesson）” 和“计算效率边界”的叙事，把很多聪明人引导到了追求规模的方向，而忽视了探索革命性新方法。现在的模型其实非常低效。
我们可以在训练后大幅压缩权重的精度，模型依然能跑，比如生成什么“骑自行车的鹈鹕图”。

图片

另一位网友补充总结了这种“默认更大更好”的惯性：

一旦你内化了“痛苦教训”——也就是“更多数据 + 更大计算 = 更好性能”这个逻辑后，你就不再思考，如何在计算受限的环境里榨出最强表现了。

图片

4.写在最后：开源模型的发展速度和质量远超预期

智谱的 GLM-4.5，再次把开源模型的能力上限推高了一大截。

如今网友们的“整活自由”，正是这波模型狂飙带来的副作用。一个网友的留言，精准地讲出了许多技术人的共同心声：

“开源模型的发展速度和质量，完全超出我预期。
还记得 ChatGPT 上线那会儿，市面上最强的开源模型不过是 GPT-J 和 GPT-NeoX，用起来很痛苦——prompt 必须写得像讲故事一样非常精细，不然模型根本不理你。
后来 LLaMA 模型‘被泄露’，一切就变了。量化模型、微调方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

图片

现在的开源模型，也许距离最强闭源模型还有 6 个月的差距——但别忘了，它们已经能在普通笔记本上本地运行，甚至支持微调。这一切的变化，只用了短短两年。

评论区最多的感慨就是：真没想到，2025 年我们能在笔记本上玩到这个水平的 AI。

你有尝试本地部署模型吗？

如果让你选一个任务来测试本地大模型，你会想让它做什么？欢迎在评论区聊聊~

参考链接：

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏，0修改！本地大模型拐点来了!网友：别被大模型叙事带偏了(附指南）

1.一次生成完整游戏，无需修改！3bit 模型的实战表现令人惊艳

2.指南：作者是如何运行GLM-4.5 Air模型的

3.网友：别被大模型叙事带偏了！低估了旧硬件 + 量化的潜力

4.写在最后：开源模型的发展速度和质量远超预期

参考链接：

相关资讯

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

macOS 版 ChatGPT 被指以纯文本存储 AI 对话，OpenAI 紧急更新修复