AI在线 AI在线

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。 这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。 随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。

近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。

随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。然而,如何准确评估这些模型的性能,尤其是它们的推理能力和解决数学问题的能力,一直是研究者关注的焦点。近年来,虽然已有多个基准测试数据集用于评估语言模型的数学推理能力,但随着模型的快速发展,这些数据集逐渐被攻克,其挑战性逐渐降低。

微信截图_20250510101532.png

在此背景下,UGMathBench数据集应运而生。该数据集从在线作业评分系统中精心收集、提取和整理了大量本科数学问题,涵盖了基础算术、单变量微积分、多变量微积分、微分方程、概率等16个科目,共包含5062个题目。与以往数据集不同的是,UGMathBench为每个题目提供了3个不同的随机版本,通过改变数学问题中的数字来产生动态变化的问题,从而更真实地评估语言模型的推理能力。

为了确保评估的准确性和公正性,研究团队还提出了三个关键指标:有效准确率(EAcc)、推理差距(Δ)和稳健性效率(RE)。有效准确率用于衡量语言模型在所有随机版本上都能正确解答的题目比例;推理差距则反映了语言模型在解答不同随机版本题目时的一致性;稳健性效率则进一步捕捉了语言模型在适应相同问题不同随机版本时的能力。

基于UGMathBench数据集,研究团队对23个先进的语言模型进行了全面评估,包括商业闭源模型和开源模型。评估结果显示,即使是具有先进推理能力的语言模型,在UGMathBench数据集上也面临巨大挑战。这一结果不仅揭示了当前语言模型的局限性,也为未来开发具有更高推理能力的语言模型提供了重要参考。

UGMathBench数据集的发布,不仅为语言模型数学推理能力的评估提供了新的工具和方法,也为研究者深入理解语言模型的内在推理逻辑提供了有力支持。目前,该数据集已对外开放下载,研究者和开发者可通过指定链接获取数据集及相关技术报告,进一步探索语言模型在数学推理领域的潜力。

数据集下载地址:

https://www.modelscope.cn/datasets/xinxu02/UGMathBench

https://huggingface.co/datasets/UGMathBench/ugmathbench

技术报告地址:

https://arxiv.org/abs/2501.13766

相关资讯

OpenAI 发布 MMMLU 数据集:更广、更深评估 AI 模型,支持简体中文

科技媒体 marktechpost 昨日(9 月 23 日)发布博文,报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集。背景随着语言模型日益强大,评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI 决定推出 MMMLU 数据集,通过提供强大的多语言和多任务数据集,来评估大型语言模型(LLMs)在各种任务中的性能,从而应对这一挑战。MMMLU 数据集简介MMMLU 数据集包含一系列问题,涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研
9/24/2024 2:46:03 PM
故渊

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
11/22/2024 1:12:00 PM
机器之心

当前的人工智能比二年级学生聪明吗?SMART-101挑战赛现在开始了! VLAR@ICCV 2023

使人工智能领域的真正进步和创新 !
7/17/2023 10:36:00 AM
机器之心
  • 1