THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

作者：AI在线 2025-04-15 10:01

在快速发展的语言模型领域，研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低，但在性能上往往不及更大的模型。

在快速发展的语言模型领域，研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低，但在性能上往往不及更大的模型。因此，开发中型模型以有效平衡计算效率与强大的推理及指令跟随能力，成为了当前的趋势。

近日，清华大学发布了 GLM4，特别是其 GLM-Z1-32B-0414变体，有效应对了这些挑战。GLM4在一个包含15万亿个标记的大型数据集上进行训练，旨在提供可靠的多语言能力，并引入了一种名为 “思维模式” 的创新推理策略。

这一发布使 GLM4与其他知名模型如 DeepSeek Distill、QwQ 和 O1-mini 并肩，且以广受欢迎的 MIT 许可证进行分发。值得注意的是，尽管其参数规模为32亿，GLM4在推理基准测试中展现出的性能与包含高达6710亿参数的 GPT-4o 和 DeepSeek-V3等更大模型相当。

从技术层面来看，GLM-Z1-32B-0414利用高质量的训练数据，包括合成生成的推理任务，来增强其分析能力。该模型集成了先进的拒绝采样和强化学习（RL）等技术，以提高在基于代理的任务、编码、函数调用和搜索驱动的问答任务中的表现。

此外，其 “深度推理模型” 变体通过结合冷启动方法与延长的 RL 训练，专门针对复杂的数学、逻辑和编码任务进行优化。在训练过程中还采用了成对排名反馈机制，以提高模型的整体推理效果。

一个高级变体 GLM-Z1-Rumination-32B-0414引入了一种新方法，称为 “反思”，使得模型能够进行较长时间的反思推理，以应对像 AI 驱动的城市分析等开放复杂问题。该变体结合了先进的搜索工具与多目标强化学习，显著提升了其在研究密集型任务和复杂检索场景中的实用性。为了满足不同需求，GLM-Z1-9B-0414版本以其90亿参数展现了强大的数学和通用推理能力，证明了较小规模模型的实用性。

基准评估的性能数据强调了 GLM4系列的优势。特别是 GLM-4-32B-0414在多个基准测试中显示出强劲的表现，相较于 GPT-4o、DeepSeek-V3和 Qwen2.5-Max 等模型。在 IFEval 指令跟随基准上，GLM4获得了87.6的高分。在如零售（68.7）和航空(51.2)等任务自动化基准 TAU-Bench 上，GLM4同样取得了不错的成绩。在经过 SimpleQA 评估的搜索增强问答任务中，模型录得了88.1的高分。

此外，GLM4在 BFCL-v3基准的函数调用任务中，整体得分为69.6，几乎与 GPT-4o 的表现持平。在通过 Moatless 框架测试的实际代码修复场景中，GLM4的成功率为33.8%，凸显了其实际价值。

GLM4展现了作为有效语言模型系列的潜力，成功弥合了较小可访问模型与传统更大模型之间的性能差距。GLM-Z1系列，尤其是32B 变体，通过提供强大的推理能力，同时保持计算的经济性， exemplifies this balanced approach。由于其宽松的 MIT 许可证，GLM4被定位为研究和企业应用中高性能 AI 解决方案的重要工具，无需承受传统大型模型所带来的巨大计算开销。

huggingface:https://huggingface.co/THUDM/GLM-Z1-32B-0414

划重点:
- 🌍 GLM4是一款由清华大学发布的32亿参数语言模型，具备强大的多语言能力和推理能力。
- 📊 该模型在多个基准测试中表现出色，尤其在指令跟随和任务自动化领域，展现了与更大模型相当的性能。
- 🚀 GLM4通过其 MIT 许可证，使得高性能 AI 解决方案更易于获取，适合研究和企业应用。

THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

相关资讯

最接近GPT-4的国产大模型诞生了

智谱发布新一代旗舰开源模型 GLM-4.5，专为智能体应用打造

又一国产最强！GLM4.5正式开源，真实测，全栈开发能力封神，免费可玩。对话刘昊然：南京照相馆PPT着实震撼！智谱背后技术公开了

​THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争

相关资讯

最接近GPT-4的国产大模型诞生了

智谱发布新一代旗舰开源模型 GLM-4.5，专为智能体应用打造

又一国产最强！GLM4.5正式开源，真实测，全栈开发能力封神，免费可玩。对话刘昊然：南京照相馆PPT着实震撼！智谱背后技术公开了

THUDM 发布 GLM 4：32 亿参数模型与 GPT-4o 和 DeepSeek-V3 正面竞争