自监督学习
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
10/20/2025 4:34:00 PM
机器之心
Meta 发布 DINOv3,无需标注数据的通用图像处理 AI 新模型
Meta 近日宣布推出 DINOv3,这是一种无需标注数据的通用图像处理 AI 模型。 该模型基于 17亿张图像进行自监督学习训练,并构建了 70亿个参数,使其能够处理各种图像任务和领域,几乎无需任何调整。 这一特性使得 DINOv3在那些标注数据有限的专业领域,如卫星图像处理,具有尤其重要的应用价值。
8/18/2025 10:32:15 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
AI新词
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
具身智能
生成式
神经网络
机器学习
3D
RAG
AI视频
人形机器人
研究
大语言模型
百度
生成
Sora
GPU
工具
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
生成式AI
场景
DeepMind
深度学习
AI模型
特斯拉
架构
MCP
亚马逊
Transformer
编程
视觉
预测