AI在线 AI在线

多模态

字节跳动放大招!SAIL-VL2横空出世,多模态视觉语言模型的巅峰之作

随着人工智能技术的不断发展,多模态模型在图像理解、自然语言处理等领域的应用越来越广泛。 SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合推出的一款开源多模态视觉语言模型,旨在实现全面的多模态理解和推理。 一、项目概述SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。
10/31/2025 2:25:00 AM
AGI小兵

当人工智能遇见图形数据库:利用多模态数据融合进行创新

人工智能时代的数据挑战随着智能技术革新各行各业,数据量和种类都呈现爆炸式增长。 银行生成结构化交易记录、非结构化客户通话记录以及半结构化的 JSON 档案。 医院管理着自由文本的病历、数值化的实验室结果以及诊断图像。
10/30/2025 9:05:47 AM
晓晓

多模态开发踩坑实录

你是不是也遇到这种情况:代码写完了、跑起来也没报错,但模型就是“不看图”? 别急,这事儿很常见——多模态开发不难,难在模型是否真支持多模态。 本文用最简单的方式,带你把“文字 图片”的多模态对话跑起来,并告诉你常见坑怎么避。
10/27/2025 1:11:00 AM
红绿灯灯灯灯

蚂蚁集团发布多模态应用“灵光”,内置AGI相机,已开启内测

据新浪科技消息,近日,一款名为 “灵光” 的全新多模态应用已在腾讯应用宝、vivo 应用商店等平台悄然上线,并开启邀约内测。 用户可通过手机号或支付宝账号直接登录体验。 据悉,“灵光”由 支付宝(杭州)数字服务技术有限公司开发,其最大亮点在于内置的 “AGI 相机” 功能。
10/24/2025 2:31:33 PM
AI在线

聊聊多模态训练数据创建的八个挑战

译者 | 核子可乐审校 | 重楼多模态AI能够处理图像、音频和文字等多种数据形式,亦可捕捉面部表情和周遭环境细节,让用户与AI的日常交互变得更加轻松自然、如同与好友聊天。 2023年,多模态AI市场规模就已达到12亿美元,预计自2024年至2032年期间复合年增长率将超过30%。 而显著增长的前提,离不开训练数据。
10/22/2025 8:00:00 AM
核子可乐

​Adobe AI Foundry 推出定制化服务,为企业打造独特的 Firefly 模型

Adobe 最近宣布推出一项新服务 ——Adobe AI Foundry,旨在为企业客户提供定制化的 AI 模型 Firefly。 通过这一服务,Adobe 将与企业合作,重新架构和再训练 Firefly 模型,以满足客户的特定需求。 这些 Foundry 版本的模型与普通的定制 Firefly 模型不同,它们能够理解多个概念,而普通模型则仅限于单一概念。
10/21/2025 10:27:05 AM
AI在线

云栖通道上演AI“实战秀”:守护珊瑚、助盲出行、千元机器人勾勒落地新图景

9月25日正午,杭州云栖大会现场2号馆小舞台,云栖通道如期开通。 这是一个为广大AI产业从业者、创业者以及大模型开发者提供的专属交流平台。 在今年的主题分享中,四位嘉宾带着各自的AI创新成果登台:从南海珊瑚礁的守护,到视障人群的出行辅助;从低成本具身智能开发,到农牧场的智能管理,用真实案例勾勒出人工智能落地现实的鲜活图景。
9/26/2025 10:40:33 AM

多模态“啊哈时刻”:自编码器如何让理解与生成真正相爱相杀

大家好,我是肆〇柒。 今天这篇论文是一项来自北京大学与百度ERNIE团队的研究。 面对当前多模态模型“理解”与“生成”模块貌合神离、甚至相互拖后腿的行业困局,这支研究团队另辟蹊径,提出了一种名为UAE的全新框架,不仅让二者真正“统一”,更催生了令人振奋的“啊哈时刻”。
9/22/2025 9:43:04 AM
肆零柒

Ollama 本地大模型与多模态大模型

传统的大模型开发需要大量的 GPU 资源,以参数量最小的 Llama 2 7B 为例,也需要 14G 显存,而且每一种大模型都有自己的开发接口,这导致普通人很难在自己的本地环境构建大模型、体验大模型。 所以,Ollama 构建了一个开源大模型的仓库,统一了各个大模型的开发接口,让普通开发者可以非常方便地下载,安装和使用各种大模型。 本质上,Ollama 是一套构建和运行大模型的开发框架,它采用的模型量化技术进一步降低了大模型对显存的需求。
9/16/2025 9:35:52 AM
greencoatman

聚焦结构化注意力,探索提升多模态大模型文档问答性能

本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队

商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来

贯通 28 个行业专业知识,打造具有“工程师思维”的多模态大模型,唤醒沉睡的勘察设计知识经验,为铁路工程注入创新动能! 作为我国最早的大型铁路勘察设计单位之一,中铁第一勘察设计院(以下简称“铁一院”)在沙漠铁路、高原冻土铁路、高地温岩土工程处理、长大干线隧道、高寒地区高铁设计等复杂、艰巨的项目中积累了大量宝贵经验,但随着人才迭代,传统 “师徒传承” 模式下的知识流失、效率低下等问题愈发突出,亟待破局。 为此,铁一院携手商汤大装置打造“国铁价值工程多模态大模型应用平台”,首次将多模态大模型技术应用于铁路工程设计领域。
8/13/2025 9:50:38 PM
十三

基于Dify动态解析异构银行流水:架构拆解→风控报告生成

两个月前,知识星球中有个关于银行流水分析的提问:想问问对于流水识别是否有比较好的解决方案呢? 我们现在想用大模型能够对多家银行进行识别,但是发现识别准确率很一般,经常出现表格识别数据错乱的情况,而且效率也不太行这个问题在企业信贷的贷前风控场景经常出现,不同银行的流水格式一般有所区别,而且一家企业往往涉及多家银行的账户使用。 这也导致了流水解析和分析工作复杂度确实高很多。
7/31/2025 6:57:27 AM
韦东东

WAIC 2025|阶跃发布新一代基模 Step 3:原生多模态,推理效率行业领先

在2025世界人工智能大会(简称“WAIC 2025”)开幕前夕,阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。 作为阶跃的主力基座模型,Step 3兼顾智能与效率,旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。
7/25/2025 9:43:00 PM
陈彩娴

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓

多模态大模型的“安全锁”:SAPT 软提示调优技术

引言:多模态大模型的安全困境在人工智能技术飞速发展的当下,多模态大模型(VLM)正以前所未有的速度融入我们的生活,从智能助手到图像识别,从文本生成到跨模态任务处理,它们展现出了令人惊叹的能力。 然而,随着 VLM 在实际应用中的广泛部署,一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。 近期,一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文,为我们揭开了 VLM 安全性研究的新篇章。
7/11/2025 1:23:00 AM
果冻布丁兔

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一水 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
7/3/2025 3:06:44 PM
闻乐

​月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级

近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
6/23/2025 9:00:38 AM
AI在线

Chrome内置AI多模态提示功能详解与实战

距离我上次撰写关于Chrome内置AI功能的博客已经过去了几周,随着本周Google IO大会的召开,涌现了许多新公告和更新。 您可以在Chrome开发者博客上找到近期变化的详细说明:"AI API现已进入稳定版和原始试用阶段,并推出新的早期预览计划API"。 最让我期待的一项功能终于发布了——多模态提示。
6/11/2025 2:13:00 AM
前端小石匠