bench
首个评估MLLMs对地质图理解的基准集,以及专为地质图理解设计的Agent
编辑 | ScienceAI地质图作为地质科学的核心工具,不仅揭示了地球地下及地表结构的关键信息,还在灾害预警、矿产资源勘探、工程建设以及环境保护等多个领域有着广泛的应用。 例如,在灾害预警中,地质图有助于预测和防范如地震、滑坡等地质灾害;在矿产资源勘探中,矿产地质图可以分析研究矿床形成的地质背景、成矿条件、矿床类型和分布规律;在工程建设时,工程地质图对于判断区域稳定性至关重要,能够保障建筑物的安全性;而在环境保护方面,水文地质图则有助于分析水文条件和污染源分布。 地质图的理解具有极高的门槛。
3/24/2025 2:10:00 PM
ScienceAI
最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景
代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。
12/5/2024 3:46:00 PM
新闻助手
首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王
科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
10/12/2024 1:51:58 PM
故渊
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
感谢OpenAI 公司于 8 月 13 日发布新闻稿,宣布推出 SWE-bench Verified 代码生成评估基准,解决了此前的局限性问题,能够更准确地评估人工智能模型在软件工程任务中的表现。SWE-benchAI在线注:SWE-Bench 是一个用于评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集。它收集了来自 12 个流行的 Python 仓库的 2294 个 Issue-Pull Request 对。在测试时,LLM 会拿到一个代码库和 issue 描述,然后生成一个补丁来解决 iss
8/15/2024 2:34:33 PM
故渊
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind