AI在线 AI在线

LLaVA-OneVision-1.5

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。 LLaVA 用低成本对齐打通「视觉编码器 大语言模型」起步,LLaVA‑1.5 以更大更干净的数据与高分辨率输入强化理解,LLaVA‑NeXT 拓展 OCR / 数理与多场景任务;随后分支为 LLaVA‑NeXT‑Video 处理时序视频、多帧推理,及 LLaVA-NeXT-Interleave 支持交替多图文与跨图联推;最终在 LLaVA‑OneVision 汇聚为统一接口,覆盖图像 / 文档 / 图表 / 多图 / 视频,兼顾效果与效率。 尽管多模态对齐的接口与架构趋于收敛,真正「可复现」的开源路径仍与「仅开放权重」存在间距。
10/13/2025 2:48:00 PM
机器之心
  • 1