语言模型
大视觉语言模型基准数据集ReForm-Eval:新瓶装旧酒,给旧有的基准数据集换个形式就能用来评估新的大视觉语言模型
概要复旦DISC实验室推出了ReForm-Eval,一个用于综合评估大视觉语言模型的基准数据集。ReForm-Eval通过对已有的、不同任务形式的多模态基准数据集进行重构,构建了一个具有统一且适用于大模型评测形式的基准数据集。所构建的ReForm-Eval具有如下特点:构建了横跨8个评估维度,并为每个维度提供足量的评测数据(平均每个维度4000余条);具有统一的评测问题形式(包括单选题和文本生成问题);方便易用,评测方法可靠高效,且无需依赖ChatGPT等外部服务;高效地利用了现存的数据资源,无需额外的人工标注,并
10/20/2023 10:59:00 AM
FudanDISC
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
AI视频
人形机器人
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
计算
字节跳动
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
深度学习
AI模型
架构
亚马逊
Transformer
MCP
编程
视觉
预测