AI在线 AI在线

暗月之面发布开源模型 Kimi-VL, 28 亿个参数即可处理文本、图像和视频

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。 该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。 Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

QQ_1745899039142.png

据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍或长视频的文字记录。根据公司报告,Kimi-VL 在 LongVideoBench 和 MMLongBench-Doc 等测试中始终得分良好。

在图像处理方面,Kimi-VL 的能力也相当引人注目。与一些其他系统不同,该模型能够分析完整的屏幕截图或复杂图形,而无需将其拆分成更小的部分。它还可以处理数学图像问题和手写笔记。在一项测试中,Kimi-VL 成功分析了一份手写手稿,识别出与阿尔伯特・爱因斯坦相关的引用,并解释了其重要性。

Kimi-VL 还可以作为软件助手,能够解读图形用户界面并自动化数字任务。Moonshot AI 声称,在测试中,该模型在浏览器菜单导航或设置更改方面的表现超越了许多其他系统,包括 GPT-4o。

与其他开源模型相比,Kimi-VL 表现得更为高效。根据 Moonshot AI 的数据,它在24个基准测试中赢得了19个,即便是在活跃参数远少于其他模型的情况下。它在 MMBench-EN 和 AI2D 等基准测试中,得分与通常由更大型商业模型取得的分数相当或更高。

Moonshot AI 表示,Kimi-VL 的出色表现归功于其训练方法。除了标准的监督微调外,该模型还应用了强化学习。专门版 Kimi-VL-Thinking 被训练用于更长的推理步骤,从而提高了其在复杂任务(例如数学推理)中的表现。

虽然 Kimi-VL 表现出色,但其当前的规模在某些高度语言密集或小众任务上的表现仍有局限。同时,它在处理非常长的上下文时也面临技术挑战。Moonshot AI 计划开发更大型的模型版本,增加更多训练数据,并改善微调技术,目标是创建一个 “强大而资源高效的系统”,适用于科研和工业等实际应用场景。

今年早些时候,Moonshot AI 还发布了 Kimi k1.5,这是一款针对复杂推理的多模态模型,该公司声称其在基准测试中能够与 GPT-4o 相抗衡。Kimi k1.5可在 kimi.ai 网页界面上获得,而 Kimi-VL 的演示版本则可在 Hugging Face 找到。

划重点:  

🌟 Kimi-VL 是 Moonshot AI 发布的开源多模态 AI 模型,处理图像、文本和视频表现优异。  

📈 该模型以2.8亿个活跃参数在多项基准测试中超越许多大型模型,显示出高效的性能。  

🤖 Kimi-VL 支持长文档处理和复杂推理,能解读用户界面并自动化数字任务。

相关资讯

小米多模态大模型Xiaomi MiMo-VL开源

近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。 该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
5/30/2025 10:01:14 AM
AI在线

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VL 与 Kimi-VL-Thinking。 这两款模型以其轻量级的架构和卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。 轻巧身躯,蕴藏澎湃动力与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。
4/14/2025 10:01:22 AM
AI在线

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。
2/27/2025 2:22:00 PM
郑佳美
  • 1