多模态

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

12月6日至7日，第十届语言服务高级论坛在广州大学举行。会上，粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台，标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。突破低资源困境广州大学教授齐佳音介绍，粤语在网络世界中属于“低资源语言”。

12/8/2025 12:51:48 PM AI在线

LeCun预言成真！790年长视频，炼出最强开源「世界模型」

2025年，「世界模型」成为了AI巨头们厮杀的战场。谷歌发布的Genie 3，一句话即可生成一个720p实时模拟的新世界。甚至，网友将其称之为「游戏引擎2.0时代」。

11/3/2025 5:29:54 PM 新智元

字节跳动放大招！SAIL-VL2横空出世，多模态视觉语言模型的巅峰之作

随着人工智能技术的不断发展，多模态模型在图像理解、自然语言处理等领域的应用越来越广泛。 SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合推出的一款开源多模态视觉语言模型，旨在实现全面的多模态理解和推理。一、项目概述SAIL-VL2 是由字节跳动抖音 SAIL 团队和新加坡国立大学 LV-NUS 实验室联合开发的开源视觉语言基础模型。

10/31/2025 2:25:00 AM AGI小兵

当人工智能遇见图形数据库：利用多模态数据融合进行创新

人工智能时代的数据挑战随着智能技术革新各行各业，数据量和种类都呈现爆炸式增长。银行生成结构化交易记录、非结构化客户通话记录以及半结构化的 JSON 档案。医院管理着自由文本的病历、数值化的实验室结果以及诊断图像。

10/30/2025 9:05:47 AM 晓晓

多模态开发踩坑实录

你是不是也遇到这种情况：代码写完了、跑起来也没报错，但模型就是“不看图”？别急，这事儿很常见——多模态开发不难，难在模型是否真支持多模态。本文用最简单的方式，带你把“文字图片”的多模态对话跑起来，并告诉你常见坑怎么避。

10/27/2025 1:11:00 AM 红绿灯灯灯灯

蚂蚁集团发布多模态应用“灵光”，内置AGI相机，已开启内测

据新浪科技消息，近日，一款名为 “灵光” 的全新多模态应用已在腾讯应用宝、vivo 应用商店等平台悄然上线，并开启邀约内测。用户可通过手机号或支付宝账号直接登录体验。据悉，“灵光”由支付宝（杭州）数字服务技术有限公司开发，其最大亮点在于内置的 “AGI 相机” 功能。

10/24/2025 2:31:33 PM AI在线

聊聊多模态训练数据创建的八个挑战

译者 | 核子可乐审校 | 重楼多模态AI能够处理图像、音频和文字等多种数据形式，亦可捕捉面部表情和周遭环境细节，让用户与AI的日常交互变得更加轻松自然、如同与好友聊天。 2023年，多模态AI市场规模就已达到12亿美元，预计自2024年至2032年期间复合年增长率将超过30%。而显著增长的前提，离不开训练数据。

10/22/2025 8:00:00 AM 核子可乐

Adobe AI Foundry 推出定制化服务，为企业打造独特的 Firefly 模型

Adobe 最近宣布推出一项新服务 ——Adobe AI Foundry，旨在为企业客户提供定制化的 AI 模型 Firefly。通过这一服务，Adobe 将与企业合作，重新架构和再训练 Firefly 模型，以满足客户的特定需求。这些 Foundry 版本的模型与普通的定制 Firefly 模型不同，它们能够理解多个概念，而普通模型则仅限于单一概念。

10/21/2025 10:27:05 AM AI在线

云栖通道上演AI“实战秀”：守护珊瑚、助盲出行、千元机器人勾勒落地新图景

9月25日正午，杭州云栖大会现场2号馆小舞台，云栖通道如期开通。这是一个为广大AI产业从业者、创业者以及大模型开发者提供的专属交流平台。在今年的主题分享中，四位嘉宾带着各自的AI创新成果登台：从南海珊瑚礁的守护，到视障人群的出行辅助；从低成本具身智能开发，到农牧场的智能管理，用真实案例勾勒出人工智能落地现实的鲜活图景。

9/26/2025 10:40:33 AM

多模态“啊哈时刻”：自编码器如何让理解与生成真正相爱相杀

大家好，我是肆〇柒。今天这篇论文是一项来自北京大学与百度ERNIE团队的研究。面对当前多模态模型“理解”与“生成”模块貌合神离、甚至相互拖后腿的行业困局，这支研究团队另辟蹊径，提出了一种名为UAE的全新框架，不仅让二者真正“统一”，更催生了令人振奋的“啊哈时刻”。

9/22/2025 9:43:04 AM 肆零柒

Ollama 本地大模型与多模态大模型

传统的大模型开发需要大量的 GPU 资源，以参数量最小的 Llama 2 7B 为例，也需要 14G 显存，而且每一种大模型都有自己的开发接口，这导致普通人很难在自己的本地环境构建大模型、体验大模型。所以，Ollama 构建了一个开源大模型的仓库，统一了各个大模型的开发接口，让普通开发者可以非常方便地下载，安装和使用各种大模型。本质上，Ollama 是一套构建和运行大模型的开发框架，它采用的模型量化技术进一步降低了大模型对显存的需求。

9/16/2025 9:35:52 AM greencoatman

聚焦结构化注意力，探索提升多模态大模型文档问答性能

本文聚焦多模态大语言模型（MLLMs）在文档问答（DocQA）任务中的性能提升，提出无需改动模型架构或额外训练的结构化输入方法，通过保留文档层次结构与空间关系（如标题、表格、图像位置）优化理解能力。研究发现，传统无结构OCR输入导致注意力分散，性能下降，而 LaTeX 范式结构化输入显著提升表现。注意力分析揭示其诱导“结构化注意力”，减少无关区域干扰，聚焦语义核心。

9/11/2025 1:23:28 PM 互联网算法团队

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

贯通 28 个行业专业知识，打造具有“工程师思维”的多模态大模型，唤醒沉睡的勘察设计知识经验，为铁路工程注入创新动能！作为我国最早的大型铁路勘察设计单位之一，中铁第一勘察设计院（以下简称“铁一院”）在沙漠铁路、高原冻土铁路、高地温岩土工程处理、长大干线隧道、高寒地区高铁设计等复杂、艰巨的项目中积累了大量宝贵经验，但随着人才迭代，传统 “师徒传承” 模式下的知识流失、效率低下等问题愈发突出，亟待破局。为此，铁一院携手商汤大装置打造“国铁价值工程多模态大模型应用平台”，首次将多模态大模型技术应用于铁路工程设计领域。

8/13/2025 9:50:38 PM 十三

基于Dify动态解析异构银行流水：架构拆解→风控报告生成

两个月前，知识星球中有个关于银行流水分析的提问：想问问对于流水识别是否有比较好的解决方案呢？我们现在想用大模型能够对多家银行进行识别，但是发现识别准确率很一般，经常出现表格识别数据错乱的情况，而且效率也不太行这个问题在企业信贷的贷前风控场景经常出现，不同银行的流水格式一般有所区别，而且一家企业往往涉及多家银行的账户使用。这也导致了流水解析和分析工作复杂度确实高很多。

7/31/2025 6:57:27 AM 韦东东

WAIC 2025｜阶跃发布新一代基模 Step 3：原生多模态，推理效率行业领先

在2025世界人工智能大会（简称“WAIC 2025”）开幕前夕，阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。作为阶跃的主力基座模型，Step 3兼顾智能与效率，旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源，为开源世界贡献最强多模态推理模型。

7/25/2025 9:43:00 PM 陈彩娴

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

随着视频应用的发展，大量视频被上传到网上。因此，如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。

7/24/2025 2:00:00 AM 晓晓

多模态大模型的“安全锁”：SAPT 软提示调优技术

引言：多模态大模型的安全困境在人工智能技术飞速发展的当下，多模态大模型（VLM）正以前所未有的速度融入我们的生活，从智能助手到图像识别，从文本生成到跨模态任务处理，它们展现出了令人惊叹的能力。然而，随着 VLM 在实际应用中的广泛部署，一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。近期，一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文，为我们揭开了 VLM 安全性研究的新篇章。

7/11/2025 1:23:00 AM 果冻布丁兔

Gemini负责人爆料！多模态统一token表示，视觉至关重要

一水闻乐发自凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术！就在刚刚，Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。

7/3/2025 3:06:44 PM 闻乐

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

多模态

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

LeCun预言成真！790年长视频，炼出最强开源「世界模型」

字节跳动放大招！SAIL-VL2横空出世，多模态视觉语言模型的巅峰之作

当人工智能遇见图形数据库：利用多模态数据融合进行创新

多模态开发踩坑实录

蚂蚁集团发布多模态应用“灵光”，内置AGI相机，已开启内测

聊聊多模态训练数据创建的八个挑战

​Adobe AI Foundry 推出定制化服务，为企业打造独特的 Firefly 模型

云栖通道上演AI“实战秀”：守护珊瑚、助盲出行、千元机器人勾勒落地新图景

多模态“啊哈时刻”：自编码器如何让理解与生成真正相爱相杀

Ollama 本地大模型与多模态大模型

聚焦结构化注意力，探索提升多模态大模型文档问答性能

商汤多模态大模型赋能铁路勘察设计，让70年经验“活”起来

基于Dify动态解析异构银行流水：架构拆解→风控报告生成

WAIC 2025｜阶跃发布新一代基模 Step 3：原生多模态，推理效率行业领先

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

多模态大模型的“安全锁”：SAPT 软提示调优技术

Gemini负责人爆料！多模态统一token表示，视觉至关重要

Adobe AI Foundry 推出定制化服务，为企业打造独特的 Firefly 模型