如今的数据领导者如同走钢丝。一方面,他们面临着现代化、创新和跟上未来发展的压力。想想看,技术的发展速度远超我们的预期。2024 年初的工作方式与我们现在的工作方式截然不同:从代码和业务到日常浏览。而且,这种转变不会放缓,技术本身更是如此。
另一方面,遗留系统、碎片化平台以及各团队竞相将旧系统和流程与新世界相匹配等瓶颈问题也存在。
需求曲线越来越陡峭:更快的洞察、更深的互联互通,以及刻不容缓的决策。延迟的余地正在缩小。人们对清晰度的期望很高。然而,就数据而言,情况并非“越多越好”。事实上,数据越多,往往越混乱!
我们需要找到与节拍相匹配的关键点
传统数据库就像预先定义的地图,而图数据库则是动态网络,会随着数据和问题的变化而增长和调整。因此,在当今动态的数据格局中,对更灵活、更全面的数据模型的需求日益迫切。
进入图形数据库!
什么是图形数据库
图形数据库是指以节点、边、关系和属性的形式存储和利用数据的集合或数据库,而不是传统的表格或文档格式。
由于其管理数据内关系的整体特性,它们可以单独解决数据抽象和捕获多维数据关系的挑战。
简单地将图数据库想象成一个电商平台,其中产品、客户和评论都是独立的节点。每种关系都存储为直接连接,例如客户购买产品、评论产品,或者经常一起购买的产品。
图形数据库中的元素
这意味着您可以轻松回答诸如“购买了 X 的顾客接下来会购买哪些产品? ”之类的问题。无需依赖跨多个表的复杂连接操作即可完成此操作。这种直接的关系表示方式可以更轻松地检测购买模式并改进推荐,从而提供更加个性化的购物体验。
图形数据库为何如此流行:对未解决的领域产生持久影响
各个垂直行业的建筑师、设计师或工程师等数据人物在搜索适合并能满足目标的数据时,面临着传统关系数据库的挑战。
想象一下,您正在阅读一份包含多个个人数据点的文档:身高、体重和职业。对于像追踪身体指标这样的用例,您可以创建一个仅存储身高和体重的表,而忽略职业等其他数据,因为这些数据并非必需。
在关系数据库中,这种抽象是僵化的、预定义的。模式仅支持身高和体重列;职业列在处理过程中会丢失。如果以后你想分析某人的职业与其健康状况之间的关系,关系数据库无法提供该上下文。
您必须返回原始文档,提取数据,并可能重新设计架构以适应这种新的关系。在这里,我们将问题归结为两大类。
数据抽象问题
传统的关系数据库会强制你将数据放入预定义的表中。这里发生的事情是:
您丢弃了不符合初始模式的有价值的上下文和关系。
这些数据库通常需要固定的模式,当出现新的数据关系时,很难进行调整。问题是什么?更新模式既耗时又容易出错。
捕捉复杂、多维关系的问题
关系数据库在处理具有多对多关系或复杂、相互关联的实体(例如,社交网络、推荐系统、供应链关系)的数据时效率低下。
查询变得缓慢而复杂,使得发现隐藏的连接变得具有挑战性。
此外,传统的关系数据库专注于预定义用例的结构化查询,但不利于发现大型数据集之间关系(例如,查找看似不相关的数据之间的联系)。
图形数据库如何工作
驱动图形数据库的三个基本元素是“节点”、“边”和“属性”。
节点是实体或对象。
边是指节点之间的关系或连接。
属性是存储节点或边的属性的键值对。
将人际关系视为头等公民。
但是如何做到呢?这些图形数据库通过捕获数据点之间复杂的多维关系,超越了关系数据库。
与传统方法不同,图形数据库保存上下文和相关信息,即使这些信息与用例没有直接关系。
在图形数据库中,关系被视为一等公民,这意味着它们是数据模型的基本组成部分,与数据实体(节点)本身同等重要。
显式存储。
在图数据库中,关系直接存储为具有各自属性(特性)、类型(标签)和方向信息的专用对象。与依赖外键和连接操作在查询时推断关系的关系数据库不同,图数据库以物理方式存储这些连接,从而实现快速、无索引的遍历。
丰富的数据建模。
关系承载着元数据,例如时间戳、权重或其他上下文信息,使其与其连接的节点一样动态灵活。因此,这些关系不仅仅是简单的链接,它允许复杂的多维交互(例如供应链网络或社交媒体中的交互)自然地建模,并随着时间的推移而演变,而无需重构整个模式。
通过数据连接优化性能。
由于关系是图结构不可或缺的一部分,因此遍历它们不需要昂贵的连接操作。“无索引邻接”原则意味着每个节点都直接指向其连接的邻居,从而确保即使是深度递归查询也能高效执行。
提高了可发现性和探索性。
传统数据结构会丢弃不符合当前需求的数据,而图数据库则能够提供更灵活的分析方式,并提供发现驱动的分析能力。图数据库能够探索隐藏的关系,而无需预先定义所有问题。这种方法能够提供更深入的洞察,并开启分析和发现领域的新用例。
将图谱构建为具有更好推理能力的自我演化知识系统
虽然图谱有其诸多优势,但我们不应将其局限于静态和手动更新功能。企业最需要的是丰富图谱的知识库,以提升推理和解答能力。
正如人类大脑无法瞬间学会一切,它会逐层构建知识,并随着时间的推移不断完善。图谱在行业中的定位可以类似于人类的认知过程,成为一种不断发展的系统。
传统知识图谱不会动态发展;它们通常需要手动更新或固定结构。
因此,当图谱不断丰富时,真正的力量就显现出来,而这正是人工智能代理在模仿中发挥关键作用的地方,类似于人类大脑随着时间的推移形成连接的方式。
AI 代理可以随着时间的推移动态更新和优化图谱,使其更加智能,更有价值。在下一节中,我们将深入探讨 AI 代理如何改进这些图谱!
人工智能代理是增量知识丰富的关键
从技术角度来说,AI 代理不仅应该查询图谱,还应该主动丰富和更新图谱。它们应该自我完善,从而为应用程序提供更深入的洞察。
例如,如果出现新的关系,代理应该自动将其添加到图谱中,而不是依赖于人工更新。
我们对人工智能代理有何期望?
为了使人工智能驱动的图谱表示随着时间的推移而增长,每次系统重新审视某个主题时,它都应该 通过在以前没有联系的概念之间建立更多的联系来增加深度。
这导致了一种自我强化的知识结构,其中的思想不会孤立存在,而是融入到更广泛、相互关联的理解网络中。
深度=更好的情报和更准确的反应。
随着数据量的增加,研究人员和技术开发人员不断尝试借助人工智能代理将这些知识系统转变为不断发展的智能系统。
利用递归和自主扩展技术
把它想象成侦探追踪线索:不只是一次反应,而是利用每条新线索进行更深入的探索,建立起最初并不明显的联系。这就是递归探索,而自主进行意味着它无需人工的微观管理。
递归和自主扩展指的是图谱不会仅仅通过添加一次事实而增长,而是随着时间的推移而发展,通常通过以下方式:
- 做出多步骤决策来探索关系。
- 在现有概念之间寻找新的联系。
- 随着新数据的发现而自我更新。
因此,我们的愿景是构建 Agentic 系统,它不仅能处理图谱,还能不断改进知识库。其中最有价值的技术之一是利用多跳推理和强化学习的能力。
知识图谱本身就像一个连接数据库,但人工智能代理可以在其基础上进行推理,从而产生洞察。人工智能代理不仅检索信息,还会通过多个步骤进行推理得出结论。多跳查询使人工智能代理能够沿着图谱中的逻辑路径进行推理,并综合得出洞察。
传统知识图谱依赖于一次性预测(即,单步预测关系)。然而,基于强化学习的框架允许代理进行多跳查询或顺序决策,以发现新知识。
多模态理解
信息并非仅仅存在于结构化文本或数据库中,它还存在于图像、视频、音频等多种形式中。为了充分丰富知识图谱,智能体必须能够解读和整合来自多种模态的知识。
这需要能够跨不同数据类型对齐语义表示,推理视觉或听觉元素,并将它们与文本信息进行有意义的连接。最终的结果是一个更丰富、更全面的图谱,能够反映对世界的更广泛理解。
时间感知图推理
知识不会停滞不前。当我们重新学习某些东西时,我们会在先前知识的基础上不断完善理解。我们的大脑遵循一个学习周期,同样,知识图谱也应该更新。关系会发生变化,情境会发生变化,新的实体也会涌现。
为了体现这一点,代理必须基于随时间演变的数据进行推理。用户现在不仅知道现有事实,还知道该事实何时变为真,以及真值如何随时间变化。时间推理对于代理将时间顺序的一致性反映到知识图谱中至关重要,确保推理与现实世界事件的进展保持一致。
AI代理通过以下方式不断“重新学习”图谱
当新数据出现时添加新的关系,
随着时间的推移删除过时或薄弱的连接,或
加强经常引用的联系。
随着时间的推移,这种渐进式改进过程会带来更准确的见解。
当系统学会阅读文本并自行发现关系时,一项重大突破就出现了。它们会从一些已知的示例入手,然后在大量文本中寻找相似的模式,以发现更多事实。有些系统甚至可以提出新的事实,并将其与在线信息进行核对,看看它们是否合理。
后来,人们构建了更先进的系统,可以扫描大量非结构化文本,并提取简单的、类似句子的事实。例如,“水在 100°C 时沸腾”。这些系统不依赖于预定义的模板,因此具有灵活性和可扩展性。
💡挑战?这些提取的事实仍然需要清理和组织,才能完全整合成一个有意义的图谱。
这时,代理的角色就变得更加复杂了。它不仅能提取数据,还能进行规范化、解决共指问题、删除重复实体、与现有图本体进行对齐,甚至判断哪些事实值得整合。
在这里,推理起着核心作用。代理会问:
这个事实与我已经知道的事情相冲突吗?
我可以使用其他文本来源甚至其他形式(例如图像或结构化表格)来验证它吗?
我对这段关系有什么信心?它有用吗?
只有这样,事实才能在图谱中占有一席之地。
那么现有的表怎么样?它们能增加价值吗?
结构化数据可能是图形智能的起点……
数据领域的现代组织已经大规模管理结构化数据:干净的表格、受管控的数据集、维度模型和特定领域的数据产品。这些都是高价值资产,而不仅仅是孤立的数据集。
结构化数据→互联知识
自我进化的知识图谱需要两个主要的东西:
可靠、可解释的实体和关系
当新数据流入时,保持这些关系最新的机制
您的结构化数据已经捕获:
- 实体是您的行(例如,客户、订单、资产)
- 属性是您的列(状态、时间戳、指标)
- 关系嵌入在连接、外键或模型维度中
- 您已建模实体、定义架构并管理访问权限。您已使数据可查询且可组合。
此外,采用目的驱动的数据产品可以让您的数据资产为业务做好准备,这些资产围绕可以回答精确业务问题的实际概念进行建模。
这些是一致的,即受治理、版本化和合同驱动的。
现在,通过在顶层添加一个图表,您可以创建一个知识基础设施,可以驱动:
无需数据移动的跨域链接,图谱无需新建管道,即可跨现有数据产品进行链接。例如,财务模型和支持模型无需合并,只需通过图逻辑连接即可。您可以保留模块化,同时获得整体智能。
最小化 ETL 负载您无需移动或复制数据。 只需一个将结构映射到连接的层。
一目了然,将结构化数据输入图表,您可以解锁:
- 语义丰富性(理解事物之间的关系)
- 跨领域推理(将销售、支持和物流连接起来),
- 以及适应性(随着新需求的出现而不断发展的结构)。
探索可能性的艺术
在代理工作流中,正如我们之前介绍过的,您可以获得数据产品的生动、互联的视图;它无需重新设计任何东西就能变得更加智能。
人工智能代理能够可靠地检测随着时间的推移而产生的新链接、变化和缺失的连接。随着数据产品的更新,图谱也会自我演进:学习、扩展并反映现实世界的复杂性。
业务影响:丰富图谱为何重要?
随着企业越来越多地采用人工智能来支持其应用程序,人们越来越认识到,单靠数据是不够的。数据的结构、连接和持续丰富方式决定了洞察和决策的质量。而这正是人工智能更新的知识图谱能够提供显著优势的地方。
1. 动态知识图谱驱动的更智能的人工智能模型
说实话,图谱技术听起来很复杂。架构、建模、集成……内容繁多。这也是很多企业望而却步的原因。
但这里有一个转变:您不再需要自己构建图表。
如今,它们作为基础设施提供:预先构建、自我发展并由人工智能代理维护。
您只需连接您的系统即可。无需深厚的图谱专业知识。代理会在后台处理更新、结构和增长。
最棒的是?随着新数据的加入,图谱会不断改进,这意味着你的搜索、推荐、聊天和分析都会自动变得更加智能。
2. 构建图谱基础设施
大多数团队认为你需要一个图谱专家来完成所有这些工作,但其实不需要。
复杂性?它被抽象化了。幕后的AI代理会维护图谱的健康:更新连接、添加新见解,并确保一切保持一致。
你只需使用它。无需手动建模关系或自行管理图谱。它是一种智能系统,可以自我管理并不断改进。
3. 对跨领域数据产品的影响
当您使用 AI 驱动的图谱基础设施为您的系统提供支持时,您不仅可以获得更多数据,还可以获得更智能的全面成果。
您的客户支持将变得更加敏锐,通过情境感知答案更快地解决查询。欺诈检测将变得更加主动,能够发现其他人忽略的细微模式。产品推荐将变得更加相关:不仅“受欢迎”,而且更具个人意义。您的仪表板?它们能够揭示跨越数据孤岛而非孤立数据的洞察。
因为这不仅仅涉及更多的数据,还涉及正确的结构,并通过不断学习的代理不断丰富。
小结:图谱工作更智能,所以你不必
借助 AI 驱动的图谱基础架构,您无需管理复杂性,而是能够释放智能。无需手动更新,无需重新训练。只需一个图谱,它就能在每次数据变化时学习、调整并提供更佳结果。
更智能的应用。更快的洞察。更低的开销。