谷歌发布开源 LMEval 框架：打破 AI 模型比较壁垒，降低评测成本和时间

作者：故渊 2025-05-27 02:49

谷歌推出开源框架LMEval，为大语言模型和多模态模型提供标准化评测工具。该框架支持文本、图像和代码等领域的基准测试，简化跨平台比较，还具备增量评估和可视化功能。#AI评测# #谷歌开源#

科技媒体 The Decoder 昨日（5 月 26 日）发布博文，报道称谷歌推出开源框架 LMEval，为大语言模型和多模态模型提供标准化的评测工具。

评测新型 AI 模型一直是个难题。不同供应商使用各自的 API、数据格式和基准设置，导致跨模型比较耗时且复杂。

而谷歌最新推出的 LMEval 开源框架直击这一痛点，研究人员和开发者只需设置一次基准，就能展开标准化的评测流程，大幅简化了评测工作，节省了时间和资源。

LMEval 还通过 LiteLLM 框架抹平了 Google、OpenAI、Anthropic、Ollama 和 Hugging Face 等平台之间的接口差异，确保测试跨平台无缝运行。

LMEval 不仅支持文本评测，还涵盖图像和代码等领域的基准测试，且新输入格式可轻松扩展，框架支持是非题、多选题和自由文本生成等多种评估类型。同时，该框架能识别模型采用的“规避策略”，即故意给出模糊回答以避免生成有风险内容。

Google 还引入了 Giskard 安全评分，展示模型规避有害内容的表现，百分比越高代表安全性越强。测试结果存储在自加密的 SQLite 数据库中，确保数据本地化且不会被搜索引擎索引，兼顾了隐私与便捷。

LMEval 具备增量评估功能，无需在新增模型或问题时重新运行整个测试，仅执行必要的新增测试即可，并采用多线程引擎并行处理多项计算，有效降低了计算成本和时间消耗。

谷歌还开发了 LMEvalboard 可视化工具，通过雷达图展示模型在不同类别中的表现。用户可深入查看具体任务，精准定位模型错误，并直接比较多个模型在特定问题上的差异，图形化展示一目了然。

谷歌发布开源 LMEval 框架：打破 AI 模型比较壁垒，降低评测成本和时间

谷歌推出 LMEval:统一评估大语言与多模态模型的新工具

近日，谷歌宣布推出 LMEval，这是一个开源框架，旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程，可以方便地对来自不同公司的 AI 模型进行比较，比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。以往，对新 AI 模型的比较往往比较复杂，因为各个提供商使用自己的 API、数据格式和基准设置，导致评估效率低下且难以进行。

5/27/2025 10:01:25 AM

AI在线

谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

近日，谷歌正式发布了开源框架 LMEval，旨在为大语言模型（LLM）和多模态模型提供标准化的评测工具。这一框架的推出，不仅简化了跨平台模型性能比较，还支持文本、图像和代码等多领域的评估，展现了谷歌在AI评测领域的最新突破。 AIbase为您整理了LMEval的最新动态及其对AI行业的影响。

5/29/2025 12:01:03 PM

AI在线

快手 Agentic Coding 模型 KAT-Coder-Pro V1杀入全球 AI 榜单 Top10

快手研发的 Agentic Coding 模型 KAT-Coder-Pro V1 近日宣布重磅升级，在知名大模型竞技场 Artificial Analysis Intelligence Index 的官方评测中取得了优异成绩。 KAT-Coder-Pro V1以 64分的成绩，成功超越了 Claude4.5Sonnet，综合模型能力强势入围总榜 Top10。更值得关注的是，该模型在 Non-Reasoning Model 榜单中以显著优势斩获第一名。

12/16/2025 3:16:45 PM

AI在线

谷歌发布开源 LMEval 框架：打破 AI 模型比较壁垒，降低评测成本和时间

相关资讯

​谷歌推出 LMEval:统一评估大语言与多模态模型的新工具

谷歌放大招！LMEval开源评测框架上线，AI模型比拼从此更透明

快手 Agentic Coding 模型 KAT-Coder-Pro V1杀入全球 AI 榜单 Top10

谷歌推出 LMEval:统一评估大语言与多模态模型的新工具