大型视觉语言模型
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路
1/31/2024 3:01:00 PM
机器之心
- 1
资讯热榜
震惊 AI 界!DeepSeek-R1 :纯RL打造推理王者,AI 自主学习里程碑「技术报告解读」
DeepSeek-R1 模型发布,性能对标 OpenAI o1 正式版
「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了
中科大提出新视频流制作动画解决方案RAIN,可实现真人表情移植和动漫实时动画
过年了!Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合!
全球首个亿级参数量地震波大模型今年对外开放
看听读全都会的六边形战士MiniCPM,来啦
DeepSeek-R1 最新发布,剑指 OpenAI o1
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
机器人
数据
谷歌
智能
学习
Midjourney
大模型
GPT
用户
AI创作
图像
微软
开源
技术
Meta
论文
Stable Diffusion
生成式
算法
蛋白质
芯片
马斯克
计算
神经网络
Gemini
AI设计
Sora
研究
代码
腾讯
3D
开发者
场景
伟达
GPU
预测
模态
华为
Transformer
英伟达
机器学习
文本
驾驶
神器推荐
AI视频
深度学习
干货合集
LLaMA
搜索
视频生成
2024
算力
苹果
科技
应用
AI应用场景
AI for Science
百度
写作
具身智能
Copilot
特斯拉
安全
机器
视觉
语音
字节跳动
架构
AGI
prompt
亚马逊
英特尔
Claude
DeepMind
Anthropic