SuperBench
谁才是最强的?清华给海内外知名大模型做了场综合能力评测
在 2023 年的 “百模大战” 中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学,而好的评测方法应当具备开放性、动态性、科学性和权威性。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench 大模型综合能力评测框架,旨在推动大模型技术、应用和生态
4/19/2024 12:02:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AI
AIGC
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
微软
GPT
Meta
图像
AI创作
技术
论文
Gemini
马斯克
Stable Diffusion
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
Anthropic
计算
3D
Sora
机器学习
AI for Science
AI设计
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
Claude
xAI
模态
大语言模型
字节跳动
搜索
驾驶
具身智能
神器推荐
文本
LLaMA
Copilot
视觉
训练
算力
安全
视频生成
干货合集
应用
智能体
科技
大型语言模型
亚马逊
AGI
DeepMind