VL

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上，字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。该模型凭借其出色的通用多模态理解和推理能力，成为此次活动的焦点，吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。

5/14/2025 3:00:52 PM

AI在线

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天，字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL，旨在为智能体技术的进步铺平道路。该模型经过超过3万亿 tokens 的多模态数据预训练，不仅具备强大的通用多模态理解和推理能力，还显著降低了推理成本。与谷歌近期推出的 Gemini2.5Pro 相比，Seed1.5-VL 在性能上表现不相上下。

5/14/2025 12:00:52 PM

AI在线

暗月之面发布开源模型 Kimi-VL， 28 亿个参数即可处理文本、图像和视频

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色，以其高效的性能引起了广泛关注。 Kimi-VL 最大的亮点在于其处理长文档、复杂推理和用户界面的能力。

4/29/2025 12:01:01 PM

AI在线

多模态检索新突破！智源开源多模态向量模型BGE-VL

2025年3月6日，北京智源人工智能研究院宣布开源多模态向量模型BGE-VL，这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果，显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs，该数据集通过结合多模态表征模型、多模态大模型和大语言模型，从海量图文语料库中高效挖掘多模态三元组数据。

3/6/2025 2:46:00 PM

AI在线

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

1月28日凌晨，阿里云通义千问开源全新的视觉模型Qwen2.5-VL，推出3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，全面超越GPT-4o与Claude3.5。新的Qwen2.5-VL能够更准确地解析图像内容，突破性地支持超1小时的视频理解，无需微调就可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

1/28/2025 5:34:00 PM

新闻助手

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推

9/2/2024 2:24:51 PM

汪淼

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

通义千问团队今天对 Qwen-VL 模型进行更新，推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持（Naive Dynamic Resolution support）。与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。另一个关键架构增强是 Multimodal Rotary Position Embedding（M-

8/30/2024 8:51:15 AM

沛霖（实习）

CVPR 2024｜FairCLIP：首个多模态医疗视觉语言大模型公平性研究

作者 | 哈佛大学、纽约大学团队编辑 | ScienceAI公平性在深度学习中是一个关键问题，尤其是在医疗领域，这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究，但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集，医疗VL模型的公平性仍未被探索。为了弥补这一研究空白，我们介绍了第一个公平的视觉-语言医疗数据集（FairVLMed），它提供了详细的人口统计属性、真实标签和临床笔记，以便深入检查VL基础模型中的公平性。使用FairVLMed，我们对两个广泛使用的VL模型（CLIP和BLIP2）进

4/8/2024 2:18:00 PM

ScienceAI

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法 AI for Science 苹果 Agent 腾讯 Claude 芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型亚马逊特斯拉场景深度学习架构 Transformer MCP Copilot 编程视觉

VL

​仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA

字节跳动发布新一代多模态大模型，挑战谷歌 Gemini 2.5 Pro

暗月之面发布开源模型 Kimi-VL， 28 亿个参数即可处理文本、图像和视频

多模态检索新突破！智源开源多模态向量模型BGE-VL

阿里云通义开源Qwen2.5-VL，视觉理解能力全面超越GPT-4o

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

阿里通义千问推出 Qwen2-VL：开源 2B / 7B 模型，处理任意分辨率图像无需分割成块

CVPR 2024｜FairCLIP：首个多模态医疗视觉语言大模型公平性研究

仅20B参数！字节推出Seed1.5-VL多模态模型，实现38项SOTA