多模态
字节跳动放大招!SAIL-VL2横空出世,多模态视觉语言模型的巅峰之作
                        随着人工智能技术的不断发展,多模态模型在图像理解、自然语言处理等领域的应用越来越广泛。 SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合推出的一款开源多模态视觉语言模型,旨在实现全面的多模态理解和推理。 一、项目概述SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。
                    
                    10/31/2025 2:25:00 AM
                        AGI小兵
                    当人工智能遇见图形数据库:利用多模态数据融合进行创新
                        人工智能时代的数据挑战随着智能技术革新各行各业,数据量和种类都呈现爆炸式增长。 银行生成结构化交易记录、非结构化客户通话记录以及半结构化的 JSON 档案。 医院管理着自由文本的病历、数值化的实验室结果以及诊断图像。
                    
                    10/30/2025 9:05:47 AM
                        晓晓
                    多模态开发踩坑实录
                        你是不是也遇到这种情况:代码写完了、跑起来也没报错,但模型就是“不看图”? 别急,这事儿很常见——多模态开发不难,难在模型是否真支持多模态。 本文用最简单的方式,带你把“文字 图片”的多模态对话跑起来,并告诉你常见坑怎么避。
                    
                    10/27/2025 1:11:00 AM
                        红绿灯灯灯灯
                    蚂蚁集团发布多模态应用“灵光”,内置AGI相机,已开启内测
                        据新浪科技消息,近日,一款名为 “灵光” 的全新多模态应用已在腾讯应用宝、vivo 应用商店等平台悄然上线,并开启邀约内测。 用户可通过手机号或支付宝账号直接登录体验。 据悉,“灵光”由 支付宝(杭州)数字服务技术有限公司开发,其最大亮点在于内置的 “AGI 相机” 功能。
                    
                    10/24/2025 2:31:33 PM
                        AI在线
                    聊聊多模态训练数据创建的八个挑战
                        译者 | 核子可乐审校 | 重楼多模态AI能够处理图像、音频和文字等多种数据形式,亦可捕捉面部表情和周遭环境细节,让用户与AI的日常交互变得更加轻松自然、如同与好友聊天。 2023年,多模态AI市场规模就已达到12亿美元,预计自2024年至2032年期间复合年增长率将超过30%。 而显著增长的前提,离不开训练数据。
                    
                    10/22/2025 8:00:00 AM
                        核子可乐
                    Adobe AI Foundry 推出定制化服务,为企业打造独特的 Firefly 模型
                        Adobe 最近宣布推出一项新服务 ——Adobe AI Foundry,旨在为企业客户提供定制化的 AI 模型 Firefly。 通过这一服务,Adobe 将与企业合作,重新架构和再训练 Firefly 模型,以满足客户的特定需求。 这些 Foundry 版本的模型与普通的定制 Firefly 模型不同,它们能够理解多个概念,而普通模型则仅限于单一概念。
                    
                    10/21/2025 10:27:05 AM
                        AI在线
                    云栖通道上演AI“实战秀”:守护珊瑚、助盲出行、千元机器人勾勒落地新图景
                        9月25日正午,杭州云栖大会现场2号馆小舞台,云栖通道如期开通。 这是一个为广大AI产业从业者、创业者以及大模型开发者提供的专属交流平台。 在今年的主题分享中,四位嘉宾带着各自的AI创新成果登台:从南海珊瑚礁的守护,到视障人群的出行辅助;从低成本具身智能开发,到农牧场的智能管理,用真实案例勾勒出人工智能落地现实的鲜活图景。
                    
                    9/26/2025 10:40:33 AM
                        
                    多模态“啊哈时刻”:自编码器如何让理解与生成真正相爱相杀
                        大家好,我是肆〇柒。 今天这篇论文是一项来自北京大学与百度ERNIE团队的研究。 面对当前多模态模型“理解”与“生成”模块貌合神离、甚至相互拖后腿的行业困局,这支研究团队另辟蹊径,提出了一种名为UAE的全新框架,不仅让二者真正“统一”,更催生了令人振奋的“啊哈时刻”。
                    
                    9/22/2025 9:43:04 AM
                        肆零柒
                    Ollama 本地大模型与多模态大模型
                        传统的大模型开发需要大量的 GPU 资源,以参数量最小的 Llama 2 7B 为例,也需要 14G 显存,而且每一种大模型都有自己的开发接口,这导致普通人很难在自己的本地环境构建大模型、体验大模型。 所以,Ollama 构建了一个开源大模型的仓库,统一了各个大模型的开发接口,让普通开发者可以非常方便地下载,安装和使用各种大模型。 本质上,Ollama 是一套构建和运行大模型的开发框架,它采用的模型量化技术进一步降低了大模型对显存的需求。
                    
                    9/16/2025 9:35:52 AM
                        greencoatman
                    聚焦结构化注意力,探索提升多模态大模型文档问答性能
                        本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
                    
                    9/11/2025 1:23:28 PM
                        互联网算法团队
                    商汤多模态大模型赋能铁路勘察设计,让70年经验“活”起来
                        贯通 28 个行业专业知识,打造具有“工程师思维”的多模态大模型,唤醒沉睡的勘察设计知识经验,为铁路工程注入创新动能! 作为我国最早的大型铁路勘察设计单位之一,中铁第一勘察设计院(以下简称“铁一院”)在沙漠铁路、高原冻土铁路、高地温岩土工程处理、长大干线隧道、高寒地区高铁设计等复杂、艰巨的项目中积累了大量宝贵经验,但随着人才迭代,传统 “师徒传承” 模式下的知识流失、效率低下等问题愈发突出,亟待破局。 为此,铁一院携手商汤大装置打造“国铁价值工程多模态大模型应用平台”,首次将多模态大模型技术应用于铁路工程设计领域。
                    
                    8/13/2025 9:50:38 PM
                        十三
                    基于Dify动态解析异构银行流水:架构拆解→风控报告生成
                        两个月前,知识星球中有个关于银行流水分析的提问:想问问对于流水识别是否有比较好的解决方案呢? 我们现在想用大模型能够对多家银行进行识别,但是发现识别准确率很一般,经常出现表格识别数据错乱的情况,而且效率也不太行这个问题在企业信贷的贷前风控场景经常出现,不同银行的流水格式一般有所区别,而且一家企业往往涉及多家银行的账户使用。 这也导致了流水解析和分析工作复杂度确实高很多。
                    
                    7/31/2025 6:57:27 AM
                        韦东东
                    WAIC 2025|阶跃发布新一代基模 Step 3:原生多模态,推理效率行业领先
                        在2025世界人工智能大会(简称“WAIC 2025”)开幕前夕,阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。 作为阶跃的主力基座模型,Step 3兼顾智能与效率,旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。
                    
                    7/25/2025 9:43:00 PM
                        陈彩娴
                    多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
                        随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
                    
                    7/24/2025 2:00:00 AM
                        晓晓
                    多模态大模型的“安全锁”:SAPT 软提示调优技术
                        引言:多模态大模型的安全困境在人工智能技术飞速发展的当下,多模态大模型(VLM)正以前所未有的速度融入我们的生活,从智能助手到图像识别,从文本生成到跨模态任务处理,它们展现出了令人惊叹的能力。 然而,随着 VLM 在实际应用中的广泛部署,一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。 近期,一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文,为我们揭开了 VLM 安全性研究的新篇章。
                    
                    7/11/2025 1:23:00 AM
                        果冻布丁兔
                    Gemini负责人爆料!多模态统一token表示,视觉至关重要
                        一水 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
                    
                    7/3/2025 3:06:44 PM
                        闻乐
                    月之暗面开源 Kimi-2506:多模态智能体,视觉理解能力重大升级
                        近日,国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。 这一版本的发布标志着智能体和视觉理解技术的重大进步。 Kimi-2506的开源地址为 [此处插入链接],而在线演示可在 [此处插入链接] 进行体验。
                    
                    6/23/2025 9:00:38 AM
                        AI在线
                    Chrome内置AI多模态提示功能详解与实战
                        距离我上次撰写关于Chrome内置AI功能的博客已经过去了几周,随着本周Google IO大会的召开,涌现了许多新公告和更新。 您可以在Chrome开发者博客上找到近期变化的详细说明:"AI API现已进入稳定版和原始试用阶段,并推出新的早期预览计划API"。 最让我期待的一项功能终于发布了——多模态提示。
                    
                    6/11/2025 2:13:00 AM
                        前端小石匠
                    
        资讯热榜
    
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                