谷歌推出 LMEval:统一评估大语言与多模态模型的新工具

作者：AI在线 2025-05-27 10:01

近日，谷歌宣布推出 LMEval，这是一个开源框架，旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程，可以方便地对来自不同公司的 AI 模型进行比较，比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。以往，对新 AI 模型的比较往往比较复杂，因为各个提供商使用自己的 API、数据格式和基准设置，导致评估效率低下且难以进行。

以往，对新 AI 模型的比较往往比较复杂，因为各个提供商使用自己的 API、数据格式和基准设置，导致评估效率低下且难以进行。因此，LMEval 应运而生，它通过标准化评估流程，使得一旦设置好基准，就能轻松地将其应用于任何支持的模型，几乎无需额外工作。

LMEval 不仅支持文本评估，还扩展到了图像和代码的评估。谷歌表示，用户可以轻松添加新的输入格式。系统能够处理多种评估类型，包括是非题、多选题和自由文本生成。同时，LMEval 能够识别 “推脱策略”，即模型故意给出模棱两可的答案以避免生成有问题或风险的内容。

该系统在 LiteLLM 框架上运行，能够平滑处理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差异。这意味着相同的测试可以在多个平台上运行，而无需重新编写代码。一个突出的特点是增量评估，用户无需每次都重新运行整个测试套件，而只需执行新增的测试，这不仅节省了时间，也降低了计算成本。此外，LMEval 还使用多线程引擎加快计算速度，能够并行运行多个计算。

谷歌还提供了一个名为 LMEvalboard 的可视化工具，用户可以利用该仪表板分析测试结果。通过生成雷达图，用户可以查看模型在不同类别上的表现，并深入探讨个别模型的表现。该工具支持用户进行模型间的比较，包括在特定问题上的并排图形显示，方便用户了解不同模型的差异。

LMEval 的源代码和示例笔记本已经在 GitHub 上公开，供广大开发者使用和研究。

项目：https://github.com/google/lmeval

划重点:
🌟 LMEval 是谷歌推出的开源框架，旨在统一评估不同公司的大型 AI 模型。
🖼️ 支持文本、图像和代码的多模态评估，且可轻松添加新的输入格式。
📊 提供 LMEvalboard 可视化工具，帮助用户深入分析和比较模型表现。

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM AI在线

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

人工智能领域的竞争日趋白热化，OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉，OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。这些模型在性能上全面超越现有GPT-4o及GPT-4o mini，尤其在编码、指令遵循和多模态能力上表现突出。

4/15/2025 10:01:37 AM AI在线

GPT-5遭用户吐槽 “垃圾”：缩放定律失效，AGI梦渐行渐远？

2025 年 8 月，OpenAI 终于推出备受期待的 GPT-5，但其表现并未如市场预期般带来 “革命性突破”，反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测：亮点有限，失望声四起YouTube播主 Mrwhosetheboss 的实测显示，GPT-5 并非全面领先：在创建象棋游戏时优于 . GPT-4o-mini-high，撰写视频脚本时强于 GPT-4o，且能根据任务自动匹配最优模型；但在生成 YouTube .

8/18/2025 9:57:30 AM

​谷歌推出 LMEval:统一评估大语言与多模态模型的新工具

相关资讯

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

GPT-5遭用户吐槽 “垃圾”：缩放定律失效，AGI梦渐行渐远？

谷歌推出 LMEval:统一评估大语言与多模态模型的新工具