Vision Transformer
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗?今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像
6/3/2024 12:00:00 PM
机器之心
- 1
资讯热榜
OpenAI 开源模型被 Meta 研究员“逆改”!只动0.3%参数,gpt-oss-20B 解锁无约束基座
奥特曼:我承认GPT-5发布搞砸了
OpenAI突然"背叛"自己:推理与创作分家,万能AI时代终结?
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
GPT 4o-mini华人领队离开OpenAI:真正推动AI进步不是模型架构,而是互联网
小红书发布DynamicFace人脸生成技术,实现高质量图像视频人脸融合
阿里千问踢馆子了!Qwen3新作秒杀ChatGPT,侧脸杀切换第一人称视角,表情包绝绝子,小编:再也不用美图秀秀去水印了
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
Anthropic
英伟达
代码
训练
算法
Stable Diffusion
芯片
LLM
AI新词
蛋白质
开发者
腾讯
生成式
Claude
苹果
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
人形机器人
xAI
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
场景
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
特斯拉
应用