AI在线 AI在线

暗月之面发布开源模型 Kimi-VL, 28 亿个参数即可处理文本、图像和视频

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。 该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。 Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

QQ_1745899039142.png

据 Moonshot AI 介绍,Kimi-VL 采用了一种专家混合架构,仅在执行特定任务时激活部分模型。尽管只有2.8亿个活跃参数,但 Kimi-VL 在多个基准测试中表现出与许多大型模型相媲美的结果,其效率远超许多同类产品。Kimi-VL 的最大上下文窗口可达128,000个标记,这使其能够处理整本书籍或长视频的文字记录。根据公司报告,Kimi-VL 在 LongVideoBench 和 MMLongBench-Doc 等测试中始终得分良好。

在图像处理方面,Kimi-VL 的能力也相当引人注目。与一些其他系统不同,该模型能够分析完整的屏幕截图或复杂图形,而无需将其拆分成更小的部分。它还可以处理数学图像问题和手写笔记。在一项测试中,Kimi-VL 成功分析了一份手写手稿,识别出与阿尔伯特・爱因斯坦相关的引用,并解释了其重要性。

Kimi-VL 还可以作为软件助手,能够解读图形用户界面并自动化数字任务。Moonshot AI 声称,在测试中,该模型在浏览器菜单导航或设置更改方面的表现超越了许多其他系统,包括 GPT-4o。

与其他开源模型相比,Kimi-VL 表现得更为高效。根据 Moonshot AI 的数据,它在24个基准测试中赢得了19个,即便是在活跃参数远少于其他模型的情况下。它在 MMBench-EN 和 AI2D 等基准测试中,得分与通常由更大型商业模型取得的分数相当或更高。

Moonshot AI 表示,Kimi-VL 的出色表现归功于其训练方法。除了标准的监督微调外,该模型还应用了强化学习。专门版 Kimi-VL-Thinking 被训练用于更长的推理步骤,从而提高了其在复杂任务(例如数学推理)中的表现。

虽然 Kimi-VL 表现出色,但其当前的规模在某些高度语言密集或小众任务上的表现仍有局限。同时,它在处理非常长的上下文时也面临技术挑战。Moonshot AI 计划开发更大型的模型版本,增加更多训练数据,并改善微调技术,目标是创建一个 “强大而资源高效的系统”,适用于科研和工业等实际应用场景。

今年早些时候,Moonshot AI 还发布了 Kimi k1.5,这是一款针对复杂推理的多模态模型,该公司声称其在基准测试中能够与 GPT-4o 相抗衡。Kimi k1.5可在 kimi.ai 网页界面上获得,而 Kimi-VL 的演示版本则可在 Hugging Face 找到。

划重点:  

🌟 Kimi-VL 是 Moonshot AI 发布的开源多模态 AI 模型,处理图像、文本和视频表现优异。  

📈 该模型以2.8亿个活跃参数在多项基准测试中超越许多大型模型,显示出高效的性能。  

🤖 Kimi-VL 支持长文档处理和复杂推理,能解读用户界面并自动化数字任务。

相关资讯

kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VL 与 Kimi-VL-Thinking。 这两款模型以其轻量级的架构和卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。 轻巧身躯,蕴藏澎湃动力与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。
4/14/2025 10:01:22 AM
AI在线

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布,伴随着技术报告的公布,有网友表示:“这应该是全球范围内,除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧! ”一时间,Kimi k1.5 成了话题王者。 但在一个月后的 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的技术爆料帖,博主直言 k1.5 所用到的强化学习算法,其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。
2/27/2025 2:22:00 PM
郑佳美

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。
1/28/2025 5:34:00 PM
新闻助手
  • 1