AI在线 AI在线

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)起猛了,连老电脑都能跑智谱家新一代的 SOTA 模型了! 一篇来自技术人 Simon Willison(Python 知名 Web 框架 Django 的共同创始人)的实测文章,在 Hacker News 上引发热议:“我 2.5 年高龄的旧笔记本,现在不仅能在本地跑千亿参数模型,甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。 ”图片 这个模型,正是昨天新鲜出炉的 GLM-4.5 系列。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

起猛了,连老电脑都能跑智谱家新一代的 SOTA 模型了!

一篇来自技术人 Simon Willison(Python 知名 Web 框架 Django 的共同创始人)的实测文章,在 Hacker News 上引发热议:

“我 2.5 年高龄的旧笔记本,现在不仅能在本地跑千亿参数模型,甚至还能用它写出一款完整的 JavaScript 太空入侵者游戏。”

图片图片

逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)

这个模型,正是昨天新鲜出炉的 GLM-4.5 系列。

虽然不像 Qwen Coder 那样专门为编程打造,但根据官方基准测试, GLM-4.5在代码生成上的表现已经逼近 Claude Sonnet 4,属于真正意义上“会写代码的大模型”。

图片图片

Simon 所用的,是其中参数最少的版本 GLM-4.5 Air:

参数量依然高达 1060 亿,原始模型体积高达 205.78GB。

为了让它能在普通高配笔记本上也能运行,开发者 Ivan Fioravanti 特地制作了一个 3bit、仅 44GB 的量化版本,专为 MLX 框架优化,刚好能在 64GB 内存的 MacBook Pro 上跑起来。

模型地址:https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

这意味着更多普通开发者,也能在本地运行一个千亿参数级的模型了。

Simon 的感叹也很直接:

本地跑大模型的拐点,真的来了!

他回忆道:

 “两年前我刚试用 LLaMA,从没想过同一台笔记本,有朝一日能流畅运行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 这些拥有强大能力的模型。” 

一台不算新的笔记本 + 一个免费开源模型,就能跑出完整游戏代码。

那么,Simon 是如何在有限算力下实现这一切的?继续往下看。

1.一次生成完整游戏,无需修改!3bit 模型的实战表现令人惊艳

即使被压缩到 3bit、仅 44GB,GLM-4.5 Air 依然保留了完整的 1060 亿参数——这也是它能跑出完整 JavaScript 游戏的底气所在。

作者给出的提示词相当简洁:

 写一个实现《太空侵略者》游戏的 HTML 和 JavaScript 页面 

模型思考片刻后,生成了一段完整的代码,结构清晰、逻辑自洽

开头的系统提示也很“专业”:

<think>用户想让我用 HTML、CSS 和 JavaScript 创建一个《太空侵略者》游戏。我需要实现以下功能: 

玩家飞船:能左右移动并发射子弹 

敌方入侵者:成编队移动并反击 

分数追踪 生命值/健康系统 

游戏结束条件 [...] 

接着就是完整的 HTML 与 JS 代码,直接可运行,不用修改一行。

调试输出如下:

  •  提示词:14 tokens,生成速度 14.095 tokens/s 
  •  生成内容:4193 tokens,生成速度 25.564 tokens/s 
  •  峰值内存占用:47.687 GB

这个速度在本地部署模型中相当优秀,接近一些云端托管模型的实际表现(尤其考虑到官方所给的速度数据通常是在零延迟的理想环境下测得)。

内存使用上接近 48GB,意味着一台 64GB 内存的机器可稳稳支持——对本地推理来说,已经非常亲民。

作为对比,2024 年中发布的 LLaMA 3.1 70B 在推理阶段通常需要 350GB–500GB 的 GPU 显存,加上 64GB–128GB 的系统内存,几乎是“服务器级别的门槛”。

作者还测试了一个彩蛋级 benchmark——用这个 3bit 小模型生成一张“骑自行车的鹈鹕”的 SVG 图像。提示词是:

 “生成一张鹈鹕骑自行车的 SVG 图像” 

生成效果虽然有些“抽象主义”,但不难看出这是一只“云朵风格”的鹈鹕,骑着一辆结构稍微残缺了些但能看懂的自行车。

这说明,尽管精度远不及“满血版 GLM‑4.5”,但本地模型在多模态生成上依然具备可操作性。

上图为本地跑的GLM-4.5 Air生图,下图为GLM-4.5满血版生图👇

图片图片

2.指南:作者是如何运行GLM-4.5 Air模型的

用的是 mlx-lm 库的主分支(因为需要包含对 GLM4 MoE 的支持),通过 uv 启动:

复制

在 Python 解释器里,用标准的 MLX 模型运行方式:

复制

模型权重会下载到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夹,总计 44GB。

然后:

复制

这样模型就在本地运行了。

3.网友:别被大模型叙事带偏了!低估了旧硬件 + 量化的潜力

作者Simon 总结说:

回顾一下,几乎所有 2025 年发布的新模型都在大幅增强编程能力——而这条路线,已经结出硕果——这些本地模型现在真的非常强大。

还是两年前的那台笔记本,但它不再是 LLaMA 1 的试验田,而是能稳定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等拥有强大智能的新一代模型。

这背后,正是现代量化技术的快速成熟:

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式,如今都已非常稳定。在推理任务中精度损失极小,却能带来成倍的资源节省。

在 Hacker News 上,一位网友犀利指出了当前“Scaling 叙事”的局限:

我认为我们严重低估了现有硬件在这个领域的潜力。

我担心,“痛苦教训(bitter lesson)” 和“计算效率边界”的叙事,把很多聪明人引导到了追求规模的方向,而忽视了探索革命性新方法。现在的模型其实非常低效。

我们可以在训练后大幅压缩权重的精度,模型依然能跑,比如生成什么“骑自行车的鹈鹕图”。

图片图片

另一位网友补充总结了这种“默认更大更好”的惯性:

一旦你内化了“痛苦教训”——也就是“更多数据 + 更大计算 = 更好性能”这个逻辑后,你就不再思考,如何在计算受限的环境里榨出最强表现了。

图片图片

4.写在最后:开源模型的发展速度和质量远超预期

智谱的 GLM-4.5,再次把开源模型的能力上限推高了一大截。

如今网友们的“整活自由”,正是这波模型狂飙带来的副作用。一个网友的留言,精准地讲出了许多技术人的共同心声:

 “开源模型的发展速度和质量,完全超出我预期。

 还记得 ChatGPT 上线那会儿,市面上最强的开源模型不过是 GPT-J 和 GPT-NeoX,用起来很痛苦——prompt 必须写得像讲故事一样非常精细,不然模型根本不理你。

后来 LLaMA 模型‘被泄露’,一切就变了。量化模型、微调方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

图片图片

现在的开源模型,也许距离最强闭源模型还有 6 个月的差距——但别忘了,它们已经能在普通笔记本上本地运行,甚至支持微调。这一切的变化,只用了短短两年。

评论区最多的感慨就是:真没想到,2025 年我们能在笔记本上玩到这个水平的 AI。

你有尝试本地部署模型吗?

如果让你选一个任务来测试本地大模型,你会想让它做什么?欢迎在评论区聊聊~

参考链接:

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/ 

相关资讯

DiffUCD:扩散模型助力无监督高光谱变化检测,超越SOTA,逼近监督方法!

一眼概览DiffUCD 提出了一种创新的无监督高光谱影像变化检测(HSI-CD)方法,利用 语义相关性扩散模型(SCDM) 和 跨时间对比学习(CTCL),在无需标注的情况下提高检测精度,在多个基准数据集上超越现有方法。 核心问题高光谱影像变化检测(HSI-CD)旨在识别同一区域在不同时刻的地表变化。 然而,受限于以下挑战:• 现有方法依赖大量标注数据,而高质量的人工标注成本高昂。
3/3/2025 5:00:00 AM
萍哥学AI

耗时一年半!谷歌新定义具身通用最强SOTA,轰动硅谷!物理世界的原生推理能力、灵活性让人惊掉下巴!网友:亿些震撼!

出品 | 51CTO技术栈(微信号:blog51cto)想知道世界SOTA级别的模型用在物理世界中有多震撼吗? Google DeepMind做了一件破天荒的事情。 大模型自爆火以来,已经过去两年多,但在物理世界中真正能转化为机器人行为,还是一个世界级难题。
3/13/2025 1:37:14 PM
云昭

一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成

扩散生成模型通常需要50-100次迭代去噪步骤,效率很低,时间步蒸馏技术可以极大提高推理效率,「基于分布的蒸馏」方法,如生成对抗网络GAN及其变分分数蒸馏VSD变体,以及「基于轨迹的蒸馏方法」(如直接蒸馏、渐进蒸馏、一致性模型)可以实现10-100倍的图像生成加速效果。 但仍然存在一些关键难点,比如基于GAN的方法由于对抗动态的振荡特性和模式坍塌问题,训练过程不稳定;基于VSD的方法需要联合训练一个额外的扩散模型,增加了计算开销;一致性模型虽然稳定,但在极少数步骤(例如少于4步)的情况下,生成质量会下降。 如何开发一个能够兼顾效率、灵活性和质量的蒸馏框架成了模型部署的关键。
4/1/2025 5:10:00 AM
新智元
  • 1