AI在线 AI在线

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

NVIDIA最新发布Describe Anything 3B(DAM-3B)模型,专门针对图像和视频中特定区域的详细描述难题设计。这款多模态大语言模型能通过点、边界框、涂鸦或掩码等方式锁定目标区域,生成贴合上下文的描述文本。

科技媒体 marktechpost 昨日(4 月 23 日)发布博文,报道称英伟达为应对图像和视频中特定区域的详细描述难题,最新推出了 Describe Anything 3B(DAM-3B)AI 模型

视觉-语言模型(VLMs)在生成整体图像描述时表现出色,但对特定区域的细致描述往往力不从心,尤其在视频中需考虑时间动态,挑战更大。

英伟达推出的 Describe Anything 3B(DAM-3B)直面这一难题,支持用户通过点、边界框、涂鸦或掩码指定目标区域,生成精准且贴合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分别适用于静态图像和动态视频,模型已在 Hugging Face 平台公开。

独特架构与高效设计

DAM-3B 的核心创新在于“焦点提示”和“局部视觉骨干网络”。

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

焦点提示技术融合了全图信息与目标区域的高分辨率裁剪,确保细节不失真,同时保留整体背景。

局部视觉骨干网络则通过嵌入图像和掩码输入,运用门控交叉注意力机制,将全局与局部特征巧妙融合,再传输至大语言模型生成描述。

DAM-3B-Video 进一步扩展至视频领域,通过逐帧编码区域掩码并整合时间信息,即便面对遮挡或运动也能生成准确描述。

数据与评估双管齐下

为解决训练数据匮乏问题,NVIDIA 开发了 DLC-SDP 半监督数据生成策略,利用分割数据集和未标注的网络图像,构建了包含 150 万局部描述样本的训练语料库。

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

通过自训练方法优化描述质量,确保输出文本的高精准度,团队同时推出 DLC-Bench 评估基准,以属性级正确性而非僵硬的参考文本对比衡量描述质量。

英伟达推 DAM-3B 模型:突破局部描述难题,让 AI 看懂图像 / 视频每一个角落

DAM-3B 在包括 LVIS、Flickr30k Entities 等七项基准测试中领先,平均准确率达 67.3%,超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不仅填补了局部描述领域的技术空白,其上下文感知架构和高质量数据策略还为无障碍工具、机器人技术及视频内容分析等领域开辟了新可能。

AI在线附上参考地址

  • Describe Anything: Detailed Localized Image and Video Captioning

  • Hugging Face

  • 项目页面

相关资讯

比英伟达工程师还熟练!DeepSeek R1+测试时Scaling自动优化GPU内核

本周英伟达的一篇技术博客引发了业界震动! 英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化,效果极佳。 随着AI模型的扩展,推理时扩展(inference-time scaling),也叫测试时扩展(test-time scaling)正闪亮登场。
2/17/2025 9:10:00 AM
新智元

黄仁勋:感谢DeepSeek!英伟达财报破纪录,Blackwell开卖血赚800亿老黄笑疯

就在刚刚,英伟达公布财报。 那一刻,全世界都在观望。 出人意料的是,英伟达2025财年第四季度,情况一片大好,并未受DeepSeek影响!
2/28/2025 8:20:00 AM
新智元

20人创业神话,老黄数亿刀收购!AI大牛贾扬清、白俊杰被曝入职英伟达

靴子落地,创立两年的Lepton AI被英伟达收入囊中! 据The Information报道,英伟达斥资数亿美元,完成了对AI大牛贾扬清创企Lepton AI的收购。 目前,Lepton AI的联创贾扬清(下图左)和白俊杰(下图右),均已入职英伟达。
4/9/2025 9:51:43 AM
新智元
  • 1