AI在线 AI在线

​月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。

Kimi AI 、月之暗面

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。这一版本的发布标志着智能体和视觉理解技术的重大进步。

image.png

Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。在性能方面,Kimi-2506展现出了更为出色的智能性和节省 token 的能力。在多模态推理的基准测试中,该模型在 MathVision 上取得了56.9的分数,比之前提升了20.1;在 MathVista 上达到了80.1,提升幅度为8.4。其他如 MMMU-Pro 和 MMMU 的得分也有所上升,整体思考长度平均减少了20%,进一步提升了推理效率。

在视觉理解方面,Kimi-2506的能力显著增强,与之前版本相比,其在常规视觉感知任务上的表现也更为优越。例如,在 MMBench-EN-v1.1和 MMStar 的得分分别为84.4和70.4,显示出更全面的视觉理解实力。此外,Kimi-2506支持更高分辨率的图像处理,单张图像的总像素达到320万,相较前一版本提升了四倍。这使得模型在高分辨率感知任务中也取得了可喜的进展。

在应用领域,Kimi-2506在图像理解、图表推理、数学计算、OS 智能体接地、长 PDF 理解和视频分析等多个方面展现了出色的表现。它能够准确识别猫的品种、分析图表中的语义标签、解决数字填空题,并能有效处理长文档的内容。模型还能够将视频拆分为多个场景并提供详细描述。

Kimi-VL-A3B-Thinking 模型由三个主要部分组成:MoonViT 视觉编码器、MLP 投影器和语言模型。MoonViT 能够直接处理不同分辨率的图像,提升了训练效率。MLP 投影器则起到了视觉特征与语言模型之间的桥梁作用,确保了两者的有效结合。而 Kimi 的语言模型则基于 Moonlight,经过大规模的多模态数据和纯文本数据的联合预训练,增强了模型的语言能力与多模态理解能力。

优化方面,Kimi-VL 还采用了增强版的 Muon 优化器,通过引入权重衰减和分布式实现,进一步提高了训练效果与内存使用效率,为模型的性能优化提供了强有力的支持。

开源地址:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506

在线demo:https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking

划重点:

🌟 Kimi-2506版本的多模态模型在推理效率和视觉理解能力上均有显著提升。  

🖼️ 新版本支持更高分辨率图像处理,单张图像总像素提升至320万。  

🧠 模型在多个应用领域表现出色,涵盖图像理解、数学计算和视频分析等功能。  

相关资讯

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。
2/27/2025 2:22:00 PM
郑佳美

AI “看图说话” 更懂细节!腾讯开源多模态理解技术HaploVL

3月27日,腾讯开源团队宣布推出了一项创新的多模态理解技术——HaploVL。 这一技术旨在通过单个Transformer架构实现高效的多模态融合,显著提升AI在视觉和语言交互中的表现,特别是在细粒度视觉理解任务上。 在人工智能领域,多模态大模型(LMMs)近年来迅速崛起,它们能够实现复杂的视觉-语言对话和交互。
3/27/2025 5:36:00 PM
AI在线

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。 这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 “思考” 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。 统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。
5/14/2025 10:01:03 AM
AI在线
  • 1