视觉问答
Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP
科技媒体 marktechpost 发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。 以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。 不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。
4/25/2025 11:55:46 AM
故渊
小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。 该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。 在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答和放射学报告生成等任务。
2/10/2025 9:46:00 AM
AI在线
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
开发者
蛋白质
腾讯
LLM
生成式
苹果
Claude
神经网络
Agent
AI新词
3D
机器学习
AI for Science
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
搜索
大语言模型
具身智能
场景
RAG
字节跳动
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
架构
Copilot
DeepMind
模态
安全