大型视觉模型

多模态大模型技术方向和应用场景

多模态大模型（Multimodal Large Language Models，MLLM）是一种结合了大型语言模型（LLM）和大型视觉模型（LVM）的深度学习模型，它们能够处理和理解多种类型的数据，如文本、图像和音频，从而在跨模态任务中展现出卓越的性能。核心特点对于多模态输入-文本输出的典型 MLLM，其架构一般包括编码器、连接器以及 LLM。如要支持更多模态的输出(如图片、音频、视频)，一般需要额外接入生成器，如下图所示:MLLM 架构图模态编码器负责将原始的信息(如图片)编码成特征，连接器则进一步将特征处理成LLM 易于理解的形式，即视觉 Token。

11/11/2024 3:11:23 PM

天涯咫尺TGH

资讯热榜

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头 Chai Discovery发布Chai- 2 模型：零样本抗体设计突破16-20%命中率 Chai-2震撼发布：AI驱动零样本抗体设计，药物研发提速百倍 xAI控制台新增Grok4及Grok4Code引用，标志着下一代AI模型即将发布 PerMAXity：AI驱动投资分析，自动生成综合财务报告 OpenAI四位华人学者集体被挖，还是Meta重金出手 Qwen-TTS新版发布新增支持生成三种中文方言 Cursor手机版震撼发布！随时随地编码，开发者迎来新自由

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 Meta GPT 学习图像技术 Gemini AI创作马斯克论文代码 Anthropic 英伟达算法 Stable Diffusion 芯片智能体训练开发者生成式腾讯蛋白质苹果 AI新词神经网络 3D 研究生成 Claude 机器学习 LLM 计算 Sora AI设计 AI for Science AI视频 GPU xAI 人形机器人百度华为搜索大语言模型场景 Agent 字节跳动预测深度学习伟达工具大型语言模型 Transformer RAG 视觉神器推荐模态 Copilot 亚马逊具身智能 LLaMA 文本算力驾驶 DeepMind