CLIP
模态编码器 | FLIP:通过图像掩码加速CLIP训练
来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
4/11/2025 12:16:00 AM
模态编码器|CLIP技术改进之EVA-CLIP
上一篇看了EVA,趁热打铁,今天来看EVA-CLIP,同样是智源曹越团队的工作,主要研究主题是结合EVA改进CLIP。 研究动机:训练CLIP模型面临计算成本高和训练不稳定等挑战,尤其是在扩大模型规模时。 因此,这项工作的研究动机是提供一种高效且有效的解决方案,以促进更大规模CLIP模型的训练和发展。
4/7/2025 5:30:00 AM
Goldma
模态编码器|CLIP详细解读
下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。 CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。 然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。
11/21/2024 1:02:42 PM
佚名
CVPR 2024|FairCLIP:首个多模态医疗视觉语言大模型公平性研究
作者 | 哈佛大学、纽约大学团队编辑 | ScienceAI公平性在深度学习中是一个关键问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。使用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进
4/8/2024 2:18:00 PM
ScienceAI
后Sora时代,CV从业者如何选择模型?卷积还是ViT,监督学习还是CLIP范式
如何衡量一个视觉模型?又如何选择适合自己需求的视觉模型?MBZUAI和Meta的研究者给出了答案。一直以来,ImageNet 准确率是评估模型性能的主要指标,也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说,这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂,从早期的 ConvNets 到 Vision Transformers,可用模型的种类已大幅增加。同样,训练范式也从 ImageNet 上的监督训练发展到自监督学习和像 CLIP 这样的图像 - 文本对训练。ImageNet 并
2/19/2024 2:39:00 PM
机器之心
无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步
当下 OVD 领域的相关研究蓬勃发展,OVD 技术对未来通用 AI 大模型能够带来的改变值得期待。
6/5/2023 3:24:00 PM
机器之心
- 1
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Meta 被指控盗用 2000 余部成人影片训练 AI,或面临 3.5 亿美元天价赔偿
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
OpenAI 董事会主席:如果你想快速烧掉百万美元,就开发自己的 AI 模型吧
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用