bench

首个评估MLLMs对地质图理解的基准集，以及专为地质图理解设计的Agent

首个评估MLLMs对地质图理解的基准集，以及专为地质图理解设计的Agent

编辑 | ScienceAI地质图作为地质科学的核心工具，不仅揭示了地球地下及地表结构的关键信息，还在灾害预警、矿产资源勘探、工程建设以及环境保护等多个领域有着广泛的应用。例如，在灾害预警中，地质图有助于预测和防范如地震、滑坡等地质灾害；在矿产资源勘探中，矿产地质图可以分析研究矿床形成的地质背景、成矿条件、矿床类型和分布规律；在工程建设时，工程地质图对于判断区域稳定性至关重要，能够保障建筑物的安全性；而在环境保护方面，水文地质图则有助于分析水文条件和污染源分布。地质图的理解具有极高的门槛。

3/24/2025 2:10:00 PM ScienceAI

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:46:00 PM 新闻助手

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

首个 AI Kaggle 特级大师诞生，OpenAI 的 o1-preview 夺 7 金封王

科技媒体 The Decoder 昨日（10 月 11 日）发布博文，报道称 OpenAI 公司推出 MLE-bench 新基准，旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛，旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域，包括自然语言处理、计算机视觉和信号处理等等。

10/12/2024 1:51:58 PM 故渊

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

感谢OpenAI 公司于 8 月 13 日发布新闻稿，宣布推出 SWE-bench Verified 代码生成评估基准，解决了此前的局限性问题，能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注：SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时，LLM 会拿到一个代码库和 issue 描述，然后生成一个补丁来解决 iss

8/15/2024 2:34:33 PM 故渊

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉