大型视觉模型
多模态大模型技术方向和应用场景
多模态大模型(Multimodal Large Language Models,MLLM)是一种结合了大型语言模型(LLM)和大型视觉模型(LVM)的深度学习模型,它们能够处理和理解多种类型的数据,如文本、图像和音频,从而在跨模态任务中展现出卓越的性能。 核心特点对于多模态输入-文本输出的典型 MLLM,其架构一般包括编码器、连接器以及 LLM。 如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如下图所示:MLLM 架构图模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成LLM 易于理解的形式,即视觉 Token。
11/11/2024 3:11:23 PM
天涯咫尺TGH
- 1
资讯热榜
标签云
人工智能
OpenAI
AI
AIGC
ChatGPT
DeepSeek
AI绘画
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
微软
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
芯片
蛋白质
生成式
代码
英伟达
腾讯
神经网络
研究
Anthropic
计算
3D
Sora
AI设计
开发者
机器学习
AI for Science
GPU
AI视频
场景
苹果
华为
人形机器人
预测
百度
伟达
Transformer
深度学习
Claude
搜索
xAI
大语言模型
模态
字节跳动
驾驶
具身智能
神器推荐
文本
训练
LLaMA
Copilot
视觉
算力
安全
应用
视频生成
干货合集
智能体
大型语言模型
亚马逊
科技
AGI
DeepMind