运送
大模型测试题爆火,GPT-4 和 Claude3 都跪了,LeCun 转发:新 Benchmark
一项新的“大模型 Benchmark”在推特上爆火,LeCun 也点赞转发了!而且无论是 GPT-4 还是 Claude 3,面对它都如同被夺了魂,无法给出正确答案。难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让 LeCun 打趣说到,一项新的“Benchmark”诞生了。“模见模愁
6/24/2024 5:02:02 PM
清源
- 1
资讯热榜
标签云
人工智能
OpenAI
AI
AIGC
ChatGPT
AI绘画
DeepSeek
模型
机器人
数据
谷歌
大模型
Midjourney
智能
用户
开源
学习
微软
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
芯片
代码
蛋白质
生成式
英伟达
腾讯
神经网络
研究
Anthropic
计算
3D
开发者
Sora
AI设计
机器学习
AI for Science
GPU
AI视频
苹果
场景
华为
人形机器人
百度
预测
伟达
搜索
Claude
Transformer
深度学习
xAI
大语言模型
字节跳动
模态
训练
具身智能
驾驶
神器推荐
文本
LLaMA
Copilot
视觉
算力
应用
安全
智能体
视频生成
干货合集
亚马逊
大型语言模型
API
科技
AGI