DynRefer

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

为了实现高精度的区域级多模态理解，本文提出了一种动态分辨率方案来模拟人类视觉认知系统。本文作者来自于中国科学院大学LAMP实验室，其中第一作者赵毓钟是中国科学院大学的2023级博士生，共同一作刘峰是中国科学院大学2020级直博生。他们的主要研究方向是视觉语言模型和视觉目标感知。简介DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，DynRefer 能够以单个模型同时完成区域识别、区域属性检测和区域字幕生成（region-level captioning）任务，

6/20/2024 3:39:00 PM

机器之心

资讯热榜

OpenAI 开源模型被 Meta 研究员“逆改”！只动0.3%参数，gpt-oss-20B 解锁无约束基座奥特曼：我承认GPT-5发布搞砸了大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷谷歌最新「0.27B」Gemma 3开源！身板小却猛如虎，开发者直呼救命稻草 GPT-5遭用户吐槽 “垃圾”：缩放定律失效，AGI梦渐行渐远？从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路蚂蚁AI健康管家AQ上线四大打假功能向假医疗广告宣战 OpenAI突然"背叛"自己：推理与创作分家，万能AI时代终结？

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体论文 Anthropic 英伟达代码训练算法 Stable Diffusion 芯片 LLM AI新词蛋白质开发者腾讯生成式 Claude 苹果 Agent AI for Science 神经网络 3D 机器学习研究生成人形机器人 xAI AI视频计算 Sora 百度 GPU AI设计华为工具大语言模型搜索具身智能 RAG 字节跳动场景大型语言模型深度学习预测伟达视觉 Transformer 视频生成 AGI 架构神器推荐亚马逊 Copilot DeepMind 特斯拉应用