基准

ICCV 2025 | 机器人自主探索未知复杂空间？GLEAM破解主动探索建图的泛化难题

本文一作为陈骁，香港中文大学 MMLab - 上海人工智能实验室具身智能中心联培博士生，研究方向是三维计算机视觉和具身智能，导师为薛天帆教授。个人主页：xiao-chen.tech/。研究背景当人类走入陌生房间时，会通过移动和观察来掌握室内结构。

8/11/2025 3:51:00 PM 机器之心

原有的模型评测基准OUT了！12岁高中生建立了一个网站，让AI模型发起 Minecraft 挑战

编辑 | 言征出品 | 51CTO技术栈（微信号：blog51cto）由于传统的AI 基准测试技术已被证明不够充分，AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。对于一组开发者来说，这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark （或 MC-Bench）网站是合作开发的，目的是让人工智能模型在面对面的挑战中相互竞争，用 Minecraft 创作来回答提示。

3/21/2025 1:05:18 PM 言征

速度提高40w倍，牛津新的ML策略计算蛋白的自由能扰动，助力药物发现

编辑 | 白菜叶机器学习为快速准确地预测结合亲和力提供了巨大的希望。然而，目前的模型缺乏稳健的评估，无法完成（命中到）先导化合物优化中遇到的任务，例如对一系列同类配体的结合亲和力进行排序，从而限制了它们在药物发现中的应用。牛津大学的研究团队首先提出了一种新的基于注意力的图神经网络模型 AEV-PLIG（原子环境向量-蛋白质配体相互作用图），以解决这些问题。

2/24/2025 3:26:00 PM ScienceAI

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假

「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——用 Meta 的开源 Llama 3.1-70B，团队微调出了 R

10/7/2024 4:06:50 PM 清源

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

科技媒体 NeoWin 昨日（9 月 14 日）发布博文，报道称微软官方推出了 Windows Agent Arena 基准框架，用于评估生成式 AI Agents 在 Windows PC 上的性能。Windows Agent Arena 基准框架微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度，其中包括 Microsoft Edge 和谷歌 Chrome 浏览器，Visual Studio Code 等编程应用，记事本、时钟和画图等预装 Windows 应用，VLC 等主流

9/15/2024 10:04:37 AM 故渊

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

9/3/2024 2:35:55 PM 故渊

Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台

感谢Primate Labs 今日发布了 Geekbench AI 基准测试的第一个版本。虽然名称是新的，但该软件是 Geekbench ML 改名而来的。AI在线从 Primate Labs 官方博客获悉，Geekbench ML 包括计算机视觉和自然语言处理测试，已经进行了一段时间的预览。开发者意识到，ML（机器学习）这个术语并不太适合推广工具，取而代之的是更适合营销的 Geekbench AI（人工智能）测试。Geekbench AI 1.0 基准测试支持跨平台，但由于 AI 算法在不同平台上的表现可能截然不

8/16/2024 8:05:44 AM 汪淼

CoT提出者Jason Wei：大模型评估基准的「七宗罪」

Jason Wei 是思维链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV 领域，研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。在大模型时代，我们该如何评估 LLM 性能？现阶段，研究者已经提出了诸如 MMLU、GSM8K 等一些评估基准，不断有 LLM 在其上刷新得分。但这些评估基准真的完美吗？思维链提出者 Jason Wei 在一篇博客中进行了深入的研究。Jason Wei 首先列举了几种成

5/27/2024 3:43:00 PM 机器之心

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

5/21/2024 9:03:42 AM 故渊

可评估大模型安全性，MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

全球人工智能社区、MLPerf 基准测试开发方 MLCommons 近日发布了其 AI Safety 人工智能安全基准测试的 v0.5 概念验证版本。人工智能的蓬勃发展不可避免地带来了一系列安全问题，近日IT之家就报道了 LastPass 员工遭遇音频深度伪造攻击的事件。AI Safety 可帮助模型开发方筑起更牢靠的安全“围栏”。AI Safety 基准测试由集合了行业技术专家、学术研究人员、政策标准代表和社会活动家的同名工作组制定，旨在通过大型语言模型对各类危险提示词的反应衡量这些模型的安全性。AI Safet

4/18/2024 11:11:08 PM 溯波（实习）

UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统

测试认证机构、3DMark 开发方 UL Solution 宣布旗下 UL Procyon AI 图像生成基准测试现已兼容苹果 macOS 操作系统。该 AI 图像生成基准测试于上月推出，是 UL Procyon 专业基准测试套件的一部分。其基于 Stable Diffusion AI 模型（包含 1.5 和 XL 两种版本），能在所有支持的硬件上得到公平且可比较的结果。UL Procyon AI 图像生成基准测试通过强大的推理负载测量专用 AI 处理硬件的性能，首发时适配支持英伟达 TensorRT、英特尔 Op

4/10/2024 10:00:48 PM 溯波（实习）

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

编辑 | X大语言模型 (LLM) 已应用于医疗保健和医学等专业领域。尽管有各种为健康环境量身定制的开源 LLM，但将通用 LLM 应用于医学领域仍存在重大挑战。近日，法国阿维尼翁大学（Avignon Université ）、南特大学（Nantes Université）和 Zenidoc 的研究团队开发了 BioMistral，一个专为生物医学领域量身定制的开源 LLM，利用 Mistral 作为其基础模型，并在 PubMed Central 上进行了进一步的预训练。研究人员根据由 10 项既定的英语医学问答

2/21/2024 3:35:00 PM ScienceAI

大视觉语言模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

概要复旦DISC实验室推出了ReForm-Eval，一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构，构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点：构建了横跨8个评估维度，并为每个维度提供足量的评测数据（平均每个维度4000余条）；具有统一的评测问题形式（包括单选题和文本生成问题）；方便易用，评测方法可靠高效，且无需依赖ChatGPT等外部服务；高效地利用了现存的数据资源，无需额外的人工标注，并

10/20/2023 10:59:00 AM FudanDISC

AnchorDx通过基于深度学习的连续向量表示甲基化区域

编辑 | 萝卜皮基准医疗（AnchorDx）成立于 2015 年，是一家国际领先的采用甲基化高通量测序进行癌症早筛早诊产品开发的公司。创始人范建兵博士是基因检测领域的国际领军人物，拥有近 30 年从事人类基因组学、基因芯片（Microarrays）及高通量测序技术开发的经验。基准医疗是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业，并自主构建了全球最大的中国人群癌症早期甲基化数据库。自创立以来，基准医疗一直致力于自主开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产品，产品管线覆盖了包括肺癌、

12/30/2021 12:50:00 PM ScienceAI

M1芯片搞数据科学好使吗？5种基准测试给你答案

最近 M1 芯片爆火，它是否适用于数据科学？在常用基准上测试一下就知道了。

2/10/2021 2:51:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

基准

ICCV 2025 | 机器人自主探索未知复杂空间？GLEAM破解主动探索建图的泛化难题

原有的模型评测基准OUT了！12岁高中生建立了一个网站， 让AI模型发起 Minecraft 挑战

速度提高40w倍，牛津新的ML策略计算蛋白的自由能扰动，助力药物发现

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假

微软发布 Windows Agent Arena 基准框架，评估 AI Agents 运行主流 Windows 应用性能

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

Geekbench AI 性能跑分工具 1.0 发布，支持 PC 手机全平台

CoT提出者Jason Wei：大模型评估基准的「七宗罪」

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

可评估大模型安全性，MLPerf 基准测试开发方 MLCommons 发布 AI Safety 测试 v0.5 版

UL Procyon AI 图像生成基准测试现已适配兼容苹果 macOS 系统

首次大规模多语言评估，支持7种语言，生物医学领域7B开源LLM

大视觉语言模型基准数据集ReForm-Eval：新瓶装旧酒，给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型

AnchorDx通过基于深度学习的连续向量表示甲基化区域

M1芯片搞数据科学好使吗？5种基准测试给你答案

原有的模型评测基准OUT了！12岁高中生建立了一个网站，让AI模型发起 Minecraft 挑战