MAE
以简胜繁:Meta AI 推出 Pixio 图像模型,凭借像素重建刷新3D 重建纪录
据 AIbase 报道,Meta AI 的研究团队近日发布了一项名为 Pixio 的图像模型研究,证明了即使采用更简单的训练路径,也能在深度估计和3D 重建等复杂视觉任务中展现出卓越的性能。 长期以来,学术界普遍认为掩码自编码器(MAE)技术在场景理解上逊色于 DINOv2或 DINOv3等复杂算法,但 Pixio 的出现打破了这一固有认知。 Pixio 的核心逻辑源于对2021年 MAE 框架的深度改良。
模态编码器 | FLIP:通过图像掩码加速CLIP训练
来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉