上海AI实验室开源InternVL3系列多模态大型语言模型

作者：AI在线 2025-04-14 09:01

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。

与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。此外，得益于原生多模态预训练，InternVL3系列的整体文本性能甚至优于Qwen2.5系列，后者是InternVL3中语言组件的初始化部分。

微信截图_20250414083602.png

InternVL3系列模型的架构延续了“ViT-MLP-LLM”范式，用随机初始化的MLP projector将全新增量预训练的InternViT与各种预训练的LLM（包括InternLM3和Qwen2.5）集成。

在模型推理方面，InternVL3应用了像素反混洗操作，将视觉标记数量减少到原来的四分之一，并采用动态分辨率策略，将图像划分为448×448像素的图块。从InternVL2.0开始，关键区别在于额外引入了对多图像和视频数据的支持。InternVL3还集成了可变视觉位置编码（V2PE），为视觉标记提供了更小、更灵活的位置增量，从而展现出更出色的长上下文理解能力。

在模型部署方面，InternVL3可以通过LMDeploy的api_server部署成OpenAI兼容API，用户只需安装lmdeploy>=0.7.3，然后使用相关命令即可完成部署。模型调用时，用户可以通过OpenAI的API接口，指定模型名称、消息内容等参数，获取模型的响应。

体验地址:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

2025年4月27日，AIbase报道：由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源，引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性，展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析，涵盖其技术亮点、应用场景及未来影响。

4/27/2025 9:00:49 AM

AI在线

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

MM-HELIX团队投稿. 量子位 | 公众号 QbitAI多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。无论是生成代码、分析图表还是回答问题，诸多多模态大模型（MLLM）都倾向于给出一个“一步到位”的答案。

10/19/2025 3:08:43 PM

鹭羽

6G 还没商用，北京交大 × 帝国理工先把“语义专线”塞进边缘云——一句话让街对面那栋楼享受 VIP 带宽

AR 眼镜刚问“对面是什么楼”，后端的 MLLM-SC 框架就在 10 ms 内画出一张“语义注意力热图”：建筑轮廓被标成深红，优先级调到最高，其他背景一律降码率。高维多模态数据不再“平均用力”，任务相关的像素、语音、坐标被语义引擎拎出来走“快车道”，无关内容自动降档，6G 空口瞬间多出 30 % 可用带宽。这套“设备—边缘”协同系统把多模态大模型塞进边缘服务器，当用户输入图像语音任务请求时，提示工程上下文学习先拆意图，再驱动双路径语义编码器——重要特征走高质量路径，次要信息进低分辨率通道；即便信道突然掉档，关键区域依旧 1080 P 保真。

11/30/2025 2:13:19 PM

AI在线

上海AI实验室开源InternVL3系列多模态大型语言模型

相关资讯

Step1X-Edit：开源图像编辑新标杆 媲美GPT-4o等闭源模型

多模态大模型学会反思和复盘，上交&amp;上海AI Lab破解多模态复杂推理

6G 还没商用，北京交大 × 帝国理工先把“语义专线”塞进边缘云——一句话让街对面那栋楼享受 VIP 带宽

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理