在城市数字化不断加速的今天,交通管理、环境监测、公共安全等关键领域都面临着一个共同挑战:数据来源分散、质量参差不齐、传感器覆盖有限,导致许多真实世界问题无法依靠单一数据或单一模型得出稳定可靠的判断。
随着城市系统规模迅速扩大,如何整合多源信息,让人工智能真正理解并洞察现实世界,已经成为产业界与科研界共同关注的核心课题。在这一背景下,长期深耕城市计算和多模态智能研究的郑宇教授,用一篇论文为行业带来了具有系统性突破性的跨域多模态知识融合框架。
郑宇教授现任京东集团副总裁、京东科技首席数据科学家,是 IEEE Fellow、ACM 杰出科学家,在城市计算、时空大数据与人工智能落地方面具有国际领先影响力。他的研究不仅推动了理论发展,也在多个城市应用中取得了重要实践成果。
本届大会将于 2025 年 12 月 12—13 日在深圳·博林天瑞喜来登酒店举行,与产业界和学术界的嘉宾共同探讨人工智能的下一步发展。

论文地址:https://arxiv.org/pdf/2506.03155
融合跨域知识,让模型理解城市
整体来看,这项研究提出的跨域多模态知识融合框架在多个真实应用场景中展现出显著优势,实验结果主要体现在预测精度、异常识别能力以及稀疏数据推断能力的全面提升。
首先,在空气质量推断与预测任务中,模型融合空气监测站数据、气象观测、道路与建筑结构、POI 信息以及车辆移动等多领域数据,能够从多个互补维度刻画城市污染过程。
与只依赖单一数据源的模型相比,融合模型在未来多小时至两天的空气质量趋势预测中表现更加稳定,对污染的突发性变化具有更高的捕捉能力,并能更准确地定位局地污染热点,即便在监测站稀疏的区域,也能根据周边交通行为、土地利用与气象模式合理推断污染情况。

其次,在城市运行监测中,单个数据源往往难以识别轻微却可能引发重大后续影响的异常事件,而融合多源数据后,模型能够捕获来自交通流量、社交媒体活动和共享单车使用等多类数据在同一时空范围内的细微同步偏离,从而提前识别弱影响交通事故、局部人群聚集、环境污染初期释放以及道路施工等事件,显著提升了异常检测的及时性,为管理部门提供更早的干预时间窗口。

最后,在传感器覆盖不足的情况下,如道路速度估计和城市噪声推断任务中,模型借助跨域信息,信息包括道路物理属性、区域功能特征与城市结构规律,仍能在极为稀疏的数据环境中做出稳定、可信的推断。
实验结果显示,这种方法不仅能为原本无监测数据的道路生成连贯、合理的估计结果,而且能有效降低稀疏区域的推断误差,消除空间上的“断层”现象,显著提升数据缺失条件下的整体推断质量。

总体而言,跨域知识的融入突破了传感器不足的限制,使模型在复杂、动态、数据不完备的真实城市环境中依然具备可靠而强大的智能推理能力。
跨域融合的四个核心阶段
实验结果之外,这项研究的实验过程也遵循了一个完整而系统的跨域融合流程,依次包括数据选择、知识对齐、模型构建与数据转换四个核心阶段。
首先,在数据选择阶段,需要明确任务相关的数据来源并分析问题的根因。例如在空气质量推断中,污染受本地排放、区域传输、气象扩散和化学反应等因素共同影响,因此必须从不同领域筛选与这些因素对应的数据,包括反映土地利用的道路网络和 POI、反映人类活动的出租车轨迹、反映扩散条件的气象数据以及提供真实污染读数的监测站数据。由于这些数据来自交通、城市规划、气象与环境监测等多个领域,它们构成了典型的跨域数据组合。

随后,在知识对齐阶段,需要确定这些异构数据为何能够被融合。研究通过多视角、相似性、依赖性与共性四类原则来建立不同数据之间的联系。
多视角原则认为来自不同领域的数据能够从不同角度描述同一对象,相似性原则强调同类对象之间往往具有一致的结构或行为模式,依赖性原则指出不同对象的性质可能存在概率性关联,共性原则则强调不同领域之间可能共享某些潜在结构,如周期性规律或人类活动模式。这些原则为跨域数据之间的互补性提供了理论基础。

在模型构建阶段,作者提出精确融合和粗粒度融合两种范式:前者适用于因果关系明确、数据量有限的任务,通常基于结构化建模方法,例如矩阵分解、图结构建模和显式变量设计。后者适用于数据规模大、关系复杂且无法完全由先验知识描述的场景,更多依赖深度学习的自动建模能力,通过卷积网络、循环网络、图神经网络或注意力机制等结构捕获潜在规律。

最后,在数据转换阶段,需要将不同模态的数据处理成可直接输入模型的形式。具体包括对所有数据进行清洗、切片和插值等预处理,对结构明确的数据进行精确转换,如构建道路网络图或计算监测站间的空间关系,以及对文本、图像或轨迹等复杂数据进行粗转换,通过编码器或嵌入模型提取统一长度的向量表示。完成这些转换后,所有跨域数据即可统一输入到构建好的模型中,支撑整个实验流程的训练与推理。

面向真实城市的赋能路径
总体来看,这项研究的意义体现在几个方面。
首先,它解决了现实世界中数据不够用的难题。在交通、环境和城市管理等领域,传感器数量有限、采集成本高,很多地方根本没有数据可用。跨域融合的方法能够利用其他领域已经存在的数据来填补这些缺口,不需要额外增加设备,也能让模型在数据稀少的情况下保持良好表现。这让各种智能系统在真实城市环境中的应用变得更加可行。
其次,这项研究提出了一套系统的跨域多模态融合理论,包括多视角、相似性、依赖性和共性等原则,为不同领域的数据如何组合、如何一起发挥作用提供了清晰的依据,避免了以往“靠经验乱拼数据”的做法,也让未来的模型设计有了更规范的方向。
最后,这项研究也为跨部门的数据协作提供了新的可能。城市里的数据往往分散在不同机构,各自独立难以利用,而跨域融合的思路让这些原本孤立的数据能够共同服务于更复杂、更重要的任务,为未来建设更高水平的智慧城市提供了一条清晰的路径。