google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

最近google和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式浮现估计过错。

CPU 一直都不是完全可靠的,自问世以来就一直存在浮现过错的风险。这些风险不仅来源于设计上的一些疏忽,也源于环境条件和会产生过错的物理系统。但这些过错往往很少见,如果系统按预期运行,则只有极少部分估计会浮现过错。大多数情况下,估计机芯片被视为值得信赖的。然而,最近google和 Facebook 两大公司频繁检测到 CPU 浮现一些「不当行为」,以至于他们正在敦促技术合作公司找到找出这些过错并补救的法子。google工程师 Peter Hochschild 在近日刚刚举办的 HotOS 2021 上说道:「生产团队抱怨『机械破坏数据』的情况越来越多。」他表示:「这些机械被指控破坏了多个不同的、稳定的、调试良好的大型应用程序。机械都被各个独立团队反复指责,并且这些指控是可信的。但传统的诊断法子没有创造它们有任何成绩。」

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

开发者们更深入地查看了所涉及的代码和来自相关机械的操作遥测,google工程师开始怀疑是硬件存在成绩。他们调查创造硬件过错的发生率高于预期,这些成绩在安装后很长时间内偶尔会浮现,并且浮现在特定的单个 CPU 内核上,而不是整个芯片或一系列部件上。google的研讨职员检查了这些寂静破坏执行过错 (corrupt execution error,CEE) 后得出结论:这些过错应该归咎于「易变的内核(mercurial core)」——CPU 在一些情况下偶尔会以一种无法预测的方式浮现估计过错。

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

这些过错不是因为像 M1 芯片一样的架构设计失误,而且在制造尝试期间也没有检测到这些成绩。相反,google工程师认为,之所以会浮现过错,是因为我们已经将半导体制造推向了过错变得更加频繁的地步,而我们缺乏提前鉴别过错的工具。在一篇名为《Cores that don’t count》的论文中,Hochschild 及其同事列举了估计机内核的不可靠性现在才受到关注的几个原因,包括大型服务器机群能够让罕见成绩更加明显、开发者们近来才更加关注整体可靠性和降低软件过错率的相关改进。

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

论文地址:https://sigops.org/s/conferences/hotos/2021/papers/hotos21-s01-hochschild.pdf但该研讨表示有一个更根本的原因:「越来越小的特征尺寸越来越接近 CMOS 缩放的极限,并且架构设计的复杂性也在不断增加。」并指浮现有的验证法子并不适用于创造偶尔浮现的缺欠或部署后物理破坏的结果。我们习惯于将估计机视为过错停止装置,尤其是执行指令的内核,而大多数系统软件都依赖于这种假设。随着芯片制造朝着更小的特征尺寸和更精细的估计结构发展,并且随着引入新的复杂指令集以提高性能,我们创造了在制造尝试期间没有检测到的估计过错。这些缺欠不能总是通过微代码更新等技术来缓解,并且这些缺欠能够与处理器内的特定组件有关,允许小型代码更改能够会影响可靠性。更糟糕的是,这些过错通常是悄无声息的——唯一的变现就是浮现估计过错。这种「易变」的内核极为罕见,但在大量服务器中,我们则可以观察到它们造成的中断,甚至足以将它们视为一个明显的成绩。这意味着需要硬件设计职员、处理器供应商和系统软件架构师之间合作解决这种缺欠成绩。此外,google的研讨者提出了一些缓解该成绩的法子,例如鉴别和去除「易变」内核。「易变」内核的鉴别具有挑战性,因为「易变」内核能够导致过错和数据破坏、而不当的鉴别能够会导致良好内核的浪费,并且鉴别过程的成本也很高。该研讨对「易变」内核的鉴别过程进行了分类,包括:

自动化与人工;

部署前与部署后;

线下 vs. 线上; 

基础设施级别与应用级别。

不过,鉴别和去除「易变」内核并不总是能避免影响应用程序,并且鉴别能够不是完美的。因此google的研讨者提议设计能够容忍 CEE 且没有过多开销的软件?这将从以下几点出发:对特定于应用的机制施加一些负担,应用「端到端 Argument」设计思想,这种思想指出正确性通常最好是在端点而非较低级别的基础设施中进行检查。系统应该支持高效的检查点,通过在不同的内核上重新启动,以将失败的估计重新恢复。使用面向应用的成本高效检测法子来决定是继续通过检查点还是重试。例如,在提交之前估计数据库记录的不变量以确认机械是否破坏了数据。Facebook 也创造了同样的成绩无独有偶,Facebook 也注意到了这些过错。今年 2 月,Facebook 发表了一篇名为《 Silent Data Corruptions at Scale 》的论文,论文中写到,与之前观察到的数据中心相比,寂静数据破坏(SDC)正在成为一种更加普遍的现象。SDC 不能通过中央处理单元(CPU)中的过错报告机制捕获,因此无法在硬件级别上进行跟踪。但是,数据破坏在整个堆栈中传播,并表现为应用程序级成绩。这些类型的过错能够导致数据丢失,并且能够需要数月的调试工程时间。在本文中,研讨者描述了导致 SDC 的硅制造过程中常见的缺欠类型。讨论了一个数据中心应用程序中寂静数据破坏的真实示例。并提供了一个调试案例,以通过案例研讨来跟踪 CPU 中的根本原因和对过错指令进行分类,以举例说明如何调试此类过错。研讨者提供了缓解措施的高级概述,以减少大型生产团队中无提示数据破坏的风险。论文虽然提出了缓解策略,但没有解决根本原因。

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

论文地址:https://engineering.fb.com/2021/02/23/data-infrastructure/silent-data-corruption/图 2 以图形形式显示了数据库的破坏和链接。

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

图 3 提供了一个高级调试流程,用于追踪导致根本原因的寂静过错。破坏也会影响非零的估计。例如,在被鉴别为有缺欠的机械上执行了以下不正确的估计。研讨创造估计会影响特定数据值的正负幂,并且在某些情况下,结果应该为零时却非零。以不同的精度获得了不正确的值。

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

过错示例

google、Facebook频繁创造CPU内核不可靠,浮现无法预测估计过错

在google的研讨职员看来,Facebook 创造了寂静过错,但是找出过错原因并解决它,还需要进一步的工作。不正常的内核带来的风险不仅包括崩溃(现有的过错处理过错停止模型可以适应这种情况),还涉及过错估计和数据丢失,这些成绩能够被忽视,带来风险。Hochschild 讲述了一个例子,「我们的一个 mercurial cores 破坏了加密,只有它才能解密自己过错加密的内容。」google的研讨职员以「商业原因」拒绝透露其数据中心检测到的 CEE 率,但他们提供了一个大致的数字,即大约是每几千台机械有几个 mercurial  cores,与 Facebook 报告的比率类似。理想情况下,google希望看到自动鉴别 mercurial cores 的法子,并建议在芯片的整个生产周期中进行 CPU 尝试,而不是仅仅依赖于部署前的老化尝试。目前,google依赖于人工驱动的内核完整性审查,但这种方式并不是特别准确,鉴别可疑内核的工具和技术仍在进行中。google的研讨职员解释说,「根据我们最近的经验,通过人工驱动审查创造的可疑性过错,大约有一半是被证实的,我们必须通过进一步的尝试 (通常是在首先开发一种新的自动尝试之后) 来提取『证据』」。另一半是虚假指控和有限的可复现性。参考链接:https://www.theregister.com/2021/06/04/google_chip_flaws/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/google-facebook-pin-fan-chuang-zao-cpu-nei-he-bu-ke-kao-fu/

(0)
上一篇 2021年 6月 8日 下午2:04
下一篇 2021年 6月 9日 下午2:30

相关推荐

  • Creator 面对面 | 大模型的末尾一千米路“不太平”

    自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的标的目的演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

    2022年 7月 19日
  • 行业现状令人失望,工作之后我又回到UC伯克利读博了

    呆板学习领域近来受到大模型的冲击,很多小公司表示难以承担大模型的训练费用。但行业中呆板学习工程的发展具体是怎样的?

    2022年 7月 19日
  • WAIC 2021 | SynSense时识科技首席科学家 Giacomo Indiveri:低功耗人工智能盘算体系中的类脑策略

    在 WAIC 2021 AI 开发者论坛上,苏黎世大学与苏黎世联邦理工学院终身教授、苏黎世神经信息研究所 INI 所长、SynSense 时识科技联合创始人 & 首席科学家 Giacomo Indiveri 带来主题为《低功耗人工智能盘算体系中的类脑策略》的线上主旨演讲。以下为 Giacomo Indiveri 在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心举行了不改变原意的编辑、整理:大家好,我是 Giacomo Indiveri,来自苏黎世大学及苏黎世联邦理工神经信息研究所,很高兴有机会

    2021年 7月 22日
  • 机械进修获得了量子加速

    编辑 | 萝卜为了让 Valeria Saggio(麻省理工学院的量子物理学家)在她以前的维也纳试验室启动计算机,她需要一个特殊的水晶;水晶大概只有她的指甲那么大。Saggio 会轻轻地将它放入一个小铜盒,一个微型电烤箱,将晶体加热到 77 华氏度。然后她会打开激光,用一束光子轰击晶体。这种晶体,在这个精确的温度下,会将其中一些光子分裂成两个光子。其中一个会直接进入一个光探测器,它的旅程就结束了;另一个将进入一个微型硅芯片——一个量子计算处理器。芯片上的微型仪器可以驱动光子沿着不同的门路前进

    2022年 2月 11日
  • 这场较量,让上百个AI智能体「卷起来了」

    过去数年,随着神经网络、基于加强进修的自我博弈、多智能体进修和模仿进修等通用机器进修理论的突破,AI 智能体的计划才智实现了飞跃式发展。可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能计划过渡。「计划 AI」成了领域内的必争之地。今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的情况中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的才智上限。当然,关于

    2022年 8月 19日
  • 295页博士论文探索加强进修形象表面,获AAAI/ACM SIGAI博士论文奖提名

    除了论文本身超有技术含量之外,文中使用的图表也非常美观漂亮。

    2022年 3月 20日
  • 视频天生无需GAN、VAE,谷歌用聚集模型联合训练视频、图象,实现新SOTA

    聚集模型正在不断的「攻城略地」。

    2022年 4月 10日
  • 深度剖析|可托AI 征途中的技能实践与运用机遇

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动现在的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI范围知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技能落后方向、AI技能与产业科技融合趋势。

    2022年 7月 20日
  • google研究科学家Kevin P. Murphy几率机械进修典范教材再版,PDF免费下载

    google研究科学家 Kevin P. Murphy 的几率机械进修册本即将发行第二版了。经历了近十年的发展之后,这本人工智能畛域典范册本的实质丰富了不少(从页数上也能看出来)。

    2021年 1月 3日
  • 七年力作:UC伯克利马毅新书预印版开放下载,探讨低维模型与高维数据分析

    这本书是一个承前继后的proposal,包罗数据迷信、呆板学习从哪里来以及该往哪里去。

    2020年 12月 8日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注