
AI工作负载正从根本上重塑企业技术基础设施,市场预测凸显了这一变化的显著程度。麦肯锡指出,AI已成为“数据中心容量需求增长的关键驱动力”,预计到2030年,整体需求将“几乎增长两倍,其中约70%的需求来自AI工作负载”。
事实上,世界经济论坛预计,目前全球数据中心产业价值为2427亿美元,到2032年将增长一倍多,达到约5840亿美元。这些数据背后隐藏着一个核心挑战:传统存储方法是为一个截然不同的时代设计的,如今,它们已难以适应强大AI系统带来的更不可预测的需求。除非企业重新思考其架构的基本原则,否则大部分投资将付诸东流。
遗留系统差距
为便于理解,几十年来,企业存储解决方案一直是围绕可预测的工作负载设计的,例如与数据库和企业应用程序相关的工作负载(这只是众多例子中的几个)。总体而言,这种环境使IT负责人能够以合理的精度和灵活性扩展其存储技术。
AI打破了这种模式。训练AI模型依赖于系统能够从大规模、非结构化数据集(如文本、图像、视频和传感器日志等众多类型)中读取数据,这些数据以随机、并行的方式分布和访问。企业可能不再只有少数几个应用程序按顺序排队,而是运行数万个GPU线程,所有这些线程都需要能够提供极高吞吐量、在压力下保持低延迟并处理并发访问而不会出现性能瓶颈的存储。
问题在于,如果存储无法以所需速度提供数据,GPU就会闲置——从而消耗计算预算,并延误关键AI项目的开发和实施。
高性能计算的经验借鉴
这些挑战并非完全新鲜。高性能计算环境长期以来一直在应对类似问题。例如,在生命科学领域,研究机构需要不间断地访问以PB为单位测量的基因组数据集。英国生物银行就是一个很好的例子,它声称拥有世界上最全面的生物、健康和生活方式信息数据集。目前,它拥有约50万人的30PB生物和医学数据。在政府领域,关键任务应用程序(如情报分析和防御模拟)要求99.999%的正常运行时间,即使可用性出现短暂中断,也可能危及安全或操作准备状态。
与高性能计算一样,AI工作负载需要能够平衡性能和弹性的架构。这通常意味着结合不同的存储层级,将高性能系统保留给必须经常或快速访问的数据集,而将不太关键的数据移动到成本更低的环境中。
如果企业希望借鉴高性能计算用户的经验,就必须摒弃一刀切的部署方式,转而采用混合存储系统,使基础设施与训练和推理的特定需求相匹配。
确保数据持久性
企业面临的另一个重大问题是数据持久性,即存储的数据在一段时间内(即使可能发生系统故障、数据损坏或基础设施中断)保持完整、准确和可恢复的程度。
这些问题对AI项目的成功产生了直接影响。根据Gartner最近的一项研究,“到2026年,没有AI就绪数据支持的组织将放弃60%的AI项目”。实际上,这反映了缺乏强大的数据管理和存储弹性。只有48%的AI项目能够投入生产,65%的首席数据官表示,今年的AI目标无法实现,几乎所有人(98%)都报告了重大数据质量事件。
如果这还不能引起IT负责人的重视,那么成本问题也不容忽视。数据质量差每年已给每家企业造成1290万至1500万美元的损失,而数据管道故障则导致企业每小时(每分钟5000美元)损失约30万美元的洞察力和未达到的服务水平协议。这些故障直接导致训练中断和价值实现时间延迟。
要避免这些后果,需要采取技术和运营措施。在技术方面,多级擦除编码(MLEC)通过提供对多个同时故障的保护,比传统RAID具有更高的容错能力。此外,混合闪存和磁盘系统可以在控制成本的同时平衡超低延迟,而模块化架构则允许逐步增加容量或性能。在运营方面,自动化的数据完整性检查可以在数据进入训练管道之前检测并隔离损坏的数据,而定期安排的恢复演练则确保恢复过程能够在AI生产所要求的严格时间范围内执行。