AI在线 AI在线

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就变成了‘污水池’ 。 ” —— Bill Inmon根据 Gartner 的研究,85% 的大数据项目都失败了。 2023 年,规模达 152 亿美元的数据湖市场增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就变成了‘污水池’ 。” —— Bill Inmon

根据 Gartner 的研究,85% 的大数据项目都失败了。2023 年,规模达 152 亿美元的数据湖市场增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。

“数据仓库之父”Bill Inmon将这些失败的实施称为“污水池”和“数据沼泽”。这就是为什么你现在的方法不起作用的原因。那么,什么才是有效的呢?

一、大语言模型的陷阱正在耗尽预算

供应商一直在推销同样不完善的解决方案:“只需将 ChatGPT 添加到您的数据湖中!”

这个建议会让你付出高昂的代价。

ChatGPT 每天要花费 70 万美元才能维持运营。对于中型应用程序,企业实施每月的运行成本为 3,000 至 15,000 美元。对于处理 10 万次以上查询的组织来说,仅 API 成本每月就高达 3,000 至 7,000 美元。

这还不包括基础设施开销。

但成本并不是真正的问题,根本问题更为严重。

ChatGPT 生成的是文本,而不是结构化数据

当您分析 10,000 张客户支持票时,您不希望 ChatGPT 撰写有关客户感受的文章。

您需要结构化数据。

情绪评分、分类问题、趋势指标、可操作的洞察,填充仪表板并推动决策。

ChatGPT 会给你更多文本阅读。这与你的需要恰恰相反。

95%的浪费问题

以下是 Inmon 的杀手级见解:ChatGPT 的知识中只有 5% 与您的特定业务相关。

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

大型语言模型涵盖了世间万物。军事地图、名人趣闻、体育统计数据、流行文化参考。您的银行业务不需要了解达拉斯牛仔队的统计数据。

但你却要为这一切付出代价。

对于关键任务决策来说不可靠

ChatGPT 会产生幻觉。它会生成看似合理但实际上完全错误的信息。

87% 的数据科学项目从未投入生产。不可靠的人工智能使这一问题更加严重。

在企业环境中,可靠性每次都胜过创造力。

企业人工智能军备竞赛无人获胜

Inmon 称之为“巨大的宇宙笑话”。

美国银行、花旗集团、富国银行、摩根大通等主要银行都投入了数百万美元来打造基本相同的大型语言模型。

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

保险公司、医疗保健机构、制造公司也都这么做。

每个人都在构建庞大的通用模型,但实际上他们只需要其中的一小部分功能。

2024 年,人工智能市场规模达到 2350 亿美元,到 2028 年将超过6310 亿美元。然而,70% 的组织仍在进行试验,而不是部署可用于生产的解决方案。

与此同时,54% 的组织在基本数据移动方面遇到困难——这是任何人工智能项目的基础要求。

这就像购买一把带有 500 种工具的瑞士军刀,而您只需要一把螺丝刀。

二、BLM商业语言模型:外科手术解决方案

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

商业语言模型 (BLM)不是采用通用的万能模型,而是采用精确的方法。

它们恰好包含两个组件:

  1. 行业特定词汇 (ISV):您所在行业独有的术语
  2. 通用商业词汇(GBV):通用商业语言

这种有针对性的方法与Gartner 的预测相一致,即企业将转向特定领域的语言模型和可以微调的更轻量级模型。

微软最近推出了针对特定行业的定制化人工智能模型。他们正在与拜耳在农业领域合作,与 Cerence 在汽车领域合作,与罗克韦尔自动化在制造业合作。

市场认识到行业特定的人工智能能够带来真正的价值。

现实世界的 BLM 示例

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

银行业 BLM 包括:

  • 贷款、信用卡、储蓄账户
  • 外汇兑换、出纳、支票
  • 法案合规、付款保证金
  • 存折条目、付款到期日

餐饮业 BLM 包括:

  • 服务模式、菜系(墨西哥菜、中国菜、意大利菜)
  • 餐具、烹饪方法、菜单规划
  • 高级餐厅、牛排馆、快餐类别
  • 厨房运营、服务员管理

关键的见解是:这些词汇并不重叠。

银行术语从来不会出现在餐馆的语境中。 餐馆术语从来不会出现在银行的语境中。

这种分离可以实现激光聚焦的准确性和效率。

真正有效的情境智能

BLM 不仅能识别术语,还能理解关系:

  • 法律法规→ 认定为立法
  • 发薪日贷款→与信用卡功能挂钩
  • 付款银行→归类为银行机构
  • APR(年利率) →连接到利率规范
  • AFN → 被认定为阿富汗货币

这种情境理解确实能带来成效。麦肯锡报告称,如果高级文本分析部署得当,呼叫处理时间可减少40%,转化率可提高50% 。

普通的 LLM 无法达到这种精度。

你不想构建BLM的 69 个复杂因素

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

想要创建自己的 BLM 吗?不。

Inmon 的团队确定了69 个必须解决的复杂因素。以下是一些需要解决的问题:

  • 语言挑战

邻近分辨率:“达拉斯牛仔队” vs. “达拉斯” vs. “牛仔队”

地区拼写:“colour”(英国)与“color”(美国)

否定处理:正确解释“不”、“从不”、“无”

  • 技术障碍

同形异义词解析:“HA”可能表示心脏病发作、头痛或甲型肝炎

词干提取:识别“moving”与“move”相关

  • 多语言支持:西班牙语、德语、法语、俄语、普通话

姓名识别:识别“Mary Levens”这个人

  • 情境智能

火灾可能意味着建筑物紧急状况、武器发射或终止雇佣关系

每个上下文都需要不同的处理并产生不同的分析输出。

大多数组织都低估了这种复杂性。

从沼泽回到湖泊:转变

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

如果正确实施,BLM 会将非结构化文本转换为结构化的可查询数据。

这项功能解决了一个重大问题。每天会产生 3.28 亿 TB 的数据。2025 年,每年将产生超过 181 ZB 的数据。

80% 到 90% 的商业数据都是非结构化的。然而,根据德勤的研究,只有 18% 的公司利用非结构化数据。

BLM 使组织能够应用熟悉的分析工具:

  • Tableau用于可视化
  • Excel分析
  • 用于关系映射的知识图谱
  • 自定义仪表板,提供实时洞察
  • 行业应用取得成果

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

  • 医疗保健:医疗记录和药物试验分析。
  • 财务:客户情绪和合同评估。FitBit在六个月内分析了 33,000 条推文,以自动识别产品痛点。
  • 保险:保修索赔和风险评估与精确匹配。
  • 法律:合同分析和合规性监控。文本挖掘可识别案例先例并撰写有影响力的法律论据。
  • 制造业:用于预测见解的质量报告和维护日志。
  • 模式很明显:大多数组织缺乏资源或工具来解析企业规模的非结构化数据。BLM 系统地解决了这个问题。

预先构建的优势改变一切!

这些特定于行业的 BLM 已经存在。

据 Inmon 称,预先构建的模型涵盖了大约90% 的所有业务类型:

  • 保险、银行、建筑
  • 房地产、制药、航空
  • 零售、酒店、石油和天然气
  • 餐厅等等
  • 只需极少的定制

虽然 BLM 涵盖了绝大多数行业术语,但每个组织都有独特的术语。

定制很简单,通常占总词汇量的不到 1%。无需从头开始建造。

需要采取行动的数字

85% 的大数据项目失败。87 % 的数据科学项目从未投入生产。70 % 的组织仍在试验人工智能。同时2024年企业管理的非结构化数据将翻一番。

数据生成和数据利用之间的差距日益扩大。

商业语言模型代表着一种范式转变:从昂贵的通用人工智能到精确的、以行业为中心的、可立即获得投资回报的人工智能。

与 ChatGPT每天 70 万美元的运营成本不同,BLM 提供具有成本效益、有针对性且可有效扩展的解决方案。

三、实施路线图

前进的道路比大多数人意识到的要清晰得多:

1. 评估您当前的文本分析方法。54 %的组织在数据迁移方面举步维艰,85% 的大数据项目以失败告终,因此了解您当前的状况至关重要。

2. 确定您的行业特定词汇需求请记住,80-90%的业务数据是非结构化的,只有18%的公司利用它。

3. 评估适合您行业的预先构建的 BLM 选项,而不是通过通用解决方案加入价值 2350 亿美元的 AI 市场。

4. 计划最低限度的定制要求,通常少于总词汇量的 1%。

5. 利用现有的分析工具来实施,充分利用您当前的基础设施投资。

实施策略

问题不在于您的组织是否需要更好的文本分析。

随着非结构化数据在 2024 年翻一番,且70% 的组织仍在试验人工智能,紧迫性显而易见。

真正的问题是:你会选择高效、有针对性的商业语言模型吗?还是继续纠结于那些消耗资源、却提供极少价值的通用解决方案?

您的数据湖不必一直是一片沼泽。

如今,将人工智能重新转化为战略资产的工具已经面世。随着人工智能市场规模到2028年将增长至6310亿美元,商业语言模型就是您将数据负债转化为竞争优势所需要的。

相关资讯

数据湖系列 | 数据湖存储加速方案的发展和对比分析

本文按照数据湖存储加速方案的不同发展阶段铺开,比较了各类方案之间的异同,并深度剖析了这类方案的技术本质。 我们期望本文能够帮助读者对大数据和 AI 场景下的「数据湖存储加速」这个主题建立一个整体把握,为选出适合自己业务的方案提供参考。 图片24 年初,我们和客户 H 进行了交流。
11/13/2024 8:43:47 AM
CZP & YZ

大语言模型(LLM)是如何思考的?讲讲推动下一代人工智能推理的五种途径

译者 | 张哲刚审校 | 重楼大语言模型(LLMs)最早时期只是具备自动完成的功能,迄今为止,进步巨大,与当初已经不可同日而语。 然而,仅仅是生成流畅的文本并不足以体现真正的智能——真正的智能是需要推理能力的。 这意味着,大语言模型需要能够解决数学问题、能够调试代码、能够得出合乎逻辑的结论,还要能够检查和改正自身的错误。
4/8/2025 8:18:38 AM
张哲刚

揭秘 RAG:为什么说它是让大语言模型(LLM)更聪明的秘密武器?

现在人工智能(AI)很火,尤其是像 ChatGPT 这样的大语言模型(LLM),它们能聊天、写文章、写代码,感觉无所不能。 但有时候,它们也会犯一些小错误,比如信息过时了,或者一本正经地胡说八道(这叫“幻觉”),或者你问它一些你们公司内部的事情,它就完全不知道了。 为了解决这些问题,科学家们想出了一个聪明的办法,叫做RAG。
4/25/2025 10:03:12 AM
用户007
  • 1