刷榜
大模型走捷径「刷榜」?数据污染问题值得重视
我直接看答案。生成式 AI 元年,大家的工作节奏快了一大截。特别是,今年大家都在努力卷大模型:最近国内外科技巨头、创业公司都在轮番推出大模型,发布会一开,个个都是重大突破,每一家都是刷新了重要 Benchmark 榜单,要么排第一,要么第一梯队。在兴奋于技术进展速度之快后,很多人发现似乎也有些不对味:为什么排行榜第一人人有份?这是个什么机制?于是乎,「刷榜」这个问题也开始备受关注。近日,我们关注到朋友圈和知乎社区对大模型「刷榜」这一问题的讨论越来越多。特别是,知乎一篇帖子:如何评价天工大模型技术报告中指出很多大模型
11/9/2023 3:18:00 PM
机器之心
- 1
资讯热榜
Kimi K2 高速版kimi-k2-turbo-preview发布 输出每秒 40 Tokens
一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
OpenAI 被曝向搜索引擎公开 ChatGPT 共享对话内容,后因隐私风险叫停
Kimi K2高速版发布 输出速度提升至每秒40 Tokens
马斯克、吴恩达青睐,黄仁勋批评,见证百度、OpenAI内部起落,Anthropic CEO自曝式采访:诞生四年,每年营收十倍增长
OpenAI回应ChatGPT用多了会变傻
OpenAI 回应“ChatGPT 用多了会变傻”:AI 本质上是工具,关键在如何使用
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
开发者
蛋白质
腾讯
LLM
生成式
苹果
Claude
神经网络
Agent
AI新词
3D
机器学习
AI for Science
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
搜索
大语言模型
具身智能
场景
RAG
字节跳动
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
架构
Copilot
DeepMind
模态
安全