AI在线 AI在线

OpenAI、Claude、通义、智谱、月暗,甚至谷歌,为什么全选择Pytorch?早期论文成员爆料:LLM太笨重了,需要微型化

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Pytorch 赢了。 大家可能没注意到,现在每一款与你互动的Chatbot,背后运行的都是 PyTorch。 可以说,它已经成为了主流LLM研发链路中事实上的标准。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

Pytorch 赢了。

大家可能没注意到,现在每一款与你互动的Chatbot,背后运行的都是 PyTorch。可以说,它已经成为了主流LLM研发链路中事实上的标准。

首先,不管是大洋彼岸的OpenAI、Anthropic,还是国内的通义千问、智谱、月之暗面,他们推出的大模型或开源实现,都提供或偏好Pytorch框架。

OpenAI早在2020年就官方声明中就明确表示将研究标准化在 PyTorch 平台上,来提高研究迭代效率。

图片图片

而从 OpenAI 出走的 Anthropic,也公开披露了对于 Pytorch 框架的偏好,甚至其研究团队使用 PyTorch 来定义、训练和推理他们的 Transformer 模型(包括 Claude 1~3 系列)。更夸张地是,Claude 甚至从未发布过TF版本,也没有兼容的推理接口。其生态完全围绕 PyTorch 和 CUDA 展开。

图片图片

甚至拥有TensorFlow、JAX 的谷歌,也毫不避讳地在自己官方文档中将推出 Gemma 运行在 Pytorch 上的教程。 

图片图片

国内的大模型顶流们,亦是如此。阿里的Qwen、智谱的ChatGLM、月暗的 Kimi,社区上没有发现TF版本,甚至官方技术说明都为提到TF。

图片图片

可以说现在除了谷歌系模型(也用最新的JAX,而不是TF),几乎所顶流大模型公司都在采用Pytorch作为首选。而 TensorFlow 目前更多“活”在移动端、课本和教程视频上。

那么,为什么 Pytorch 赢了?

这个问题,相信每一位在用Pytorch的朋友,都有自己的答案。

但要回答好这个问题,没有比Pytorch最早的参与成员来回答更合适了。

上周,于旧金山举行的 PyTorch 2025 年大会 上, PyTorch 基金会技术顾问委员会的主席 Luca Antiga 发表了事关 Pytorch 长远发展的重要观点。Luca 不仅是最早参与撰写 PyTorch 论文的团队成员之一,还共同编写了《Deep Learning with PyTorch》一书。

这就为大家梳理下 Luca 的发言内容。

研究者友好的“Pythonic”设计

拥有生物医学工程学术背景的 Luca 指出,PyTorch 之所以能迅速流行,是因为它对研究者非常友好。许多早期用户都是学术界的研究人员,后来他们进入工业界,也将 PyTorch 带了进去。

它非常 Pythonic。在过去,虽然很多框架号称用 Python,但你实际上需要写一种‘元语言’,让代码和问题本身之间多了一层隔阂,调试也更困难。

而 PyTorch 在这方面是革命性的,它把 Python 的易用性、快速迭代能力,以及那种‘先干起来’的精神,带进了神经网络、反向传播和 GPU 计算的世界。

从神经网络到生成式 AI,PyTorch 始终在牌桌上

PyTorch 诞生之初,行业的重心还在神经网络,主要用于图像识别或情感分析。直到 ChatGPT 出现,生成式 AI 才让公众真正意识到 AI 的潜力。但 Antiga 认为,PyTorch 从未“过时”。

无论经历了多少次技术革命,你总能看到 PyTorch 的身影。

当然,还有像 JAX 这样的强劲对手,但相比之下,PyTorch 已经发展成一整个产业的基石,它支撑起整个生态。

如今,PyTorch 不再只是训练模型的工具,它也成为 模型推理阶段的核心。

看看现在最流行的推理框架——vLLM、SGLang——它们都在用 PyTorch,而且是用在生产环境里的。

今天你与任何一个聊天机器人互动时,很可能后台运行的就是 PyTorch。

强化学习让 PyTorch 再次走在前列

近来 PyTorch 人气再度攀升的另一个原因,是 强化学习 的广泛应用。强化学习通过“奖励正确行为、惩罚错误行为”的方式,来微调预训练的大语言模型(LLM),而 PyTorch 对这类任务也特别契合。

强化学习会鼓励模型在面对环境时,做出能带来更大奖励的行动。

PyTorch 的灵活性非常适合在这种动态、交互式的场景下使用。

PyTorch 基金会的最新动向

至于 PyTorch 基金会本身,值得注意的是,几个月前它刚开始接纳更多项目,首先是 vLLM 和 DeepSpeed。如今,随着分布式计算框架 Ray 的加入,基金会旗下已有四个重要项目。

但 Luca 强调,基金会并不打算变成一个“巨型伞形组织”。

我最关心的是生态系统里的用户——他们在进入由 PyTorch 基金会“背书”的生态时,会经历怎样的旅程?

我的目标是让他们能成功。

个人最关心的AI突破方向:LLM微型化

如今,大模型狂奔向前,哪些研究方向值得关注呢?

Luca非常笃定地表达了自己的看法:现在的大模型还是太笨重了,虽然能用,但成本消耗巨大。

我一直觉得,人类其实在做一件惊人的事:我们在训练一种“类比机器”,一种不需要精确指令、能通过模式和类比自我推理的机器。

但我们现在造的这台“飞行机器”,更像是靠一堆齿轮和螺旋桨的庞然大物——能飞,却笨重。真正的“飞行证明”其实是鸟类。

人类大脑才是我们真正的“对照组”——我们的大脑在思考时消耗的能量极低,却能完成复杂的推理。

未来的突破方向,是能否把LLM那种庞大结构“微型化”,让模型能从头到尾学习,而不需要如此多的显存与能量。

PS:这一点毫不夸张,现在就连个体开发者都可能在代码工具上开销达上万美元。

“这让我非常着迷。我不确定PyTorch基金会是否会沿这个方向演进,但我个人对此充满热情。”

对于这个方向,Luca 也正在身体力行地做出了很多投入。Luca 还是 Lightning AI的首席技术官,他们团队提供了一个PyTorch友好的训推平台,其中很多客户更大的诉求就是:想尽可能优化每一份资源的使用。

所以,我们非常关注训练与推理的全链路优化,从GPU核心层到数据加载、任务调度、流式处理,每一层都可能成为瓶颈。

有时你卡在数据加载,有时是计算没有并行,有时是模型本身没调优。要真正优化性能,得从端到端去分析。

我们也希望帮助开发者提高算力利用率,让他们能在研发之外,用得其所。

好了,文章到这里结束了。目前,PyTorch 已经成为全球 AI 模型的“操作系统”。无论是研究者造模型,还是企业部署模型,底层框架首选,当之无愧。

大家如何看待Pytorch的王者之路呢?

相关资讯

为什么要纯C语言手搓GPT-2,Karpathy回应网友质疑

Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 语言 / CUDA,不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅需要单个文件中的大约 1000 行干净代码(clean code),可以立即编
4/11/2024 3:18:00 PM
机器之心

机器学习的下一个前沿—量子扩展

译者 | 陈峻审校 | 重楼现如今,机器学习的速度比以往任何时候都快得多,也能够解决那些曾被认为完全无法解决的问题。 将来,在量子计算潜力的驱动下,人工智能(AI)模型会越来越大、越来越强,甚至会超越我们对其训练的工具。 说到模型训练,其计算和能源的消耗成本日趋高启。
1/21/2025 8:11:24 AM
陈峻

PyTorch内存优化的十种策略总结:在有限资源环境下高效训练模型

在大规模深度学习模型训练过程中,GPU内存容量往往成为制约因素,尤其是在训练大型语言模型(LLM)和视觉Transformer等现代架构时。 由于大多数研究者和开发者无法使用配备海量GPU内存的高端计算集群,因此掌握有效的内存优化技术变得尤为关键。 本文将系统性地介绍多种内存优化策略,这些技术组合应用可使模型训练的内存消耗降低近20倍,同时不会损害模型性能和预测准确率。
3/3/2025 10:42:50 AM
佚名
  • 1