AI在线 AI在线

智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

8月11日,智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。 这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的,继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线,拥有惊人的1060亿参数和120亿激活参数。 值得一提的是,GLM-4.5V 还新增了 “思考模式” 开关功能,用户可以选择是否启用该模式,从而在处理任务时更灵活。

8月11日,智谱科技正式推出其最新的视觉理解模型 ——GLM-4.5V。这款模型是基于其新一代文本模型 GLM-4.5-Air 进行训练的,继承了上一代视觉推理模型 GLM-4.1V-Thinking 的技术路线,拥有惊人的1060亿参数和120亿激活参数。值得一提的是,GLM-4.5V 还新增了 “思考模式” 开关功能,用户可以选择是否启用该模式,从而在处理任务时更灵活。

这一模型的视觉能力令人瞩目,能够轻松分辨出麦当劳和肯德基的炸鸡翅,从外观色泽和质感等多个角度进行深入分析。此外,GLM-4.5V 还能参与图像猜地点的挑战,甚至在比赛中取得了优异的成绩,超越了99% 的人类参赛者,位列第66名。智谱还展示了该模型在42个基准测试中的卓越表现,在绝大多数测试中得分超过同等规模的其他模型。

智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

目前,GLM-4.5V 已经在开源平台如 Hugging Face、魔搭和 GitHub 上线,用户可以免费下载使用,并且还提供了 FP8量化版本。为了更好地体验这一模型,智谱推出了一个桌面助手应用程序,支持实时截屏和录屏,帮助用户完成各种视觉推理任务,包括代码辅助和文档解读。

智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

在实际测试中,GLM-4.5V 展现了出色的能力,能够根据上传的图片进行位置推断,虽然偶尔会出现小误差,但推理过程仍然非常丰富。而在处理网页内容时,它可以通过截图生成相似度高的页面,展现出强大的复现能力。

智谱发布全新视觉大模型 GLM-4.5V,能轻松区分炸鸡品牌!

GLM-4.5V 不仅在视觉理解领域表现突出,还在 Agent 应用场景中展现出巨大潜力。随着这一技术的不断发展,我们有理由期待它在未来的应用中为人们的生活带来更多便捷。

相关资讯

智谱宣布旗下多款大模型产品降价 其中GLM-4-Plus降价90%

4月24日,智谱BigModel开放平台宣布进入“亿时代”,对旗下多款大模型产品进行价格调整,大幅降低使用门槛,让更多的企业能够以极低成本拥抱大模型技术。 智谱BigModel开放平台此次价格调整涉及多个模型产品。 其中,GLM-4-FlashX模型每亿tokens的价格仅为10元,该模型基于强大的预训练基座,具有超快的推理速度,功能调用能力与GPT-4相当,在数据抽取、生成、翻译等方面表现出色。
4/24/2025 12:00:49 PM
AI在线

最接近GPT-4的国产大模型诞生了

2024 年,国产大模型的第一个重磅消息,来自智谱 AI。在 1 月 16 日举办的 2024 智谱 AI 技术开放日 Zhipu DevDay 上,智谱 AI 正式发布新一代基座大模型「GLM-4」。经历了三个月的技术迭代,GLM-4 相比上一代基座模型 GLM-3 实现了 60% 的性能全面提升,直接逼近 GPT-4。一方面,GLM-4 支持更长的上下文、更强的多模态能力;另一方面,GLM-4 支持更快的推理、更多并发,大大降低了推理成本。同时,GLM-4 也增强了智能体能力,智谱 AI 正式上线了「GLM-4
1/17/2024 3:02:00 PM
机器之心

GLM-4-32B 与 GLM-Z1-32B 在 OpenRouter 上线,免费开放

清华大学 KEG 实验室(THUDM)研发的 GLM-4-32B 及 GLM-Z1-32B 两款前沿大语言模型(LLM)正式在 OpenRouter 平台上线,且完全免费向全球用户开放。 这一里程碑式的事件标志着高性能 AI 模型的普及迈出了重要一步,为开发者、研究人员及 AI 爱好者提供了强大的工具,以推动人工智能应用的进一步创新。 模型上线:性能强劲,免费开放GLM-4-32B 作为一款拥有320亿参数的通用大语言模型,以其在复杂推理、数学能力及多语言处理方面的卓越表现,成为当前开源 LLM 领域的佼佼者。
4/22/2025 9:00:40 AM
AI在线
  • 1