崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

2021 年英特尔架构日上，英特尔发布一系列重大技术架构的改变和创新：两款崭新的 x86 内核架构（能效核与本能核）、代号为 Alder Lake 的首个本能混合架构、英特尔硬件线程调动器、专为数据中心设计的下一代英特尔至强可扩张处理器 Sapphire Rapids 以及基础设施处理器（IPU）等内容。

8 月 20 日，2021 年英特尔架构日如约而至！

会上，英特尔公司高级副总裁兼加速盘算系统和图形事业部总经理 Raja Koduri 携手多位英特尔架构师，全面介绍了英特尔在 CPU、GPU 及 IPU 架构方面的重大进展。

英特尔公布了一系列重大的改变与创新，总结如下：

首个本能混合架构 Alder Lake，以及其搭载的两款崭新的 x86 内核框架——能效核和本能核，以及英特尔硬件线程调动器；

崭新的独立游戏图形处理器（GPU）架构 X^e HPG 微架构，这将是英特尔首款鉴于台积电 N6 工艺的 GPU；

专为数据中心打造的下一代英特尔至强可扩张处理器 Sapphire Rapids；

鉴于 X^e HPC 微架构的数据中心 GPU 架构 Ponte Vecchio；

崭新的基础设施处理器（IPU）；

oneAPI 工具包：供应一个开放、规范、跨架构和跨厂商的统一软件栈，让开发者能够摆脱专有语言和编程模型的束缚。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

两款崭新 X86 内核

能效核（Efficient Core）

能效核曾用代号「Gracemont」，是一个高能效的 x86 微架构，旨在面向当今多任务场景，提高吞吐量效率并供应可扩张多线程本能。

该架构致力于通过低电压能效核降低整体功率消耗，为更高频率运行供应功率热空间。同时能效核的本能也得到了提升，将能满足更多动态任务负载。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

能效核可以在不耗费处理器功率的情况下对工作负载进行优先级排序，并通过每周期指令数（IPC）改进一些功能以提高本能，包括：

拥有 5000 个条目的分支目标缓存区，实现更准确的分支预测；

64KB 指令缓存，在不耗费内存子系统功率的情况下保存可用指令；

英特尔的首款按需指令长度解码器，可生成预解码信息；

英特尔的簇乱序执行解码器，可在保持能效的同时，每周期解码多达 6 条指令；

后端宽度（Wide Back End）具备 5 组宽度分配（Five-wide allocation）和 8 组宽度引退、256 个乱序窗口入口和 17 个执行端口；

支援英特尔控制流强制技术和英特尔虚拟化技术重定向保护等功能；

实现了 AVX 指令集以及支援整数人工智能操作的新扩张。

相比于英特尔最多产的 CPU 内核 Skylake，在单线程本能下，能效核能够在相同的功耗下实现 40% 的本能提升，或在功耗不到 40% 的情况下供应同等本能。与运行四个线程的两个 Skylake 内核相比，四个能效核所供应的吞吐量本能，能够在功耗更低的情况下带来 80% 的本能提升，而在供应相同吞吐量本能的情况下，功耗将减少 80%。

本能核（Performance Core）

工作负载的代码体积正在不断增长，需要更强的执行能力。数据集也随着数据带宽的需求提升而大幅增加。英特尔崭新本能核微架构旨在提高速度，突破低时延和单线程应用程序本能的限制，曾用代号「Golden Cove」。该架构在带来显著增速的同时，能够更好地支援代码体积较大的应用程序。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

本能核是英特尔有史以来构建的本能最高的 CPU 内核，并通过以下功能突破了低时延和单线程应用程序本能的极限：

相比于目前的第 11 代英特尔酷睿处理器架构（Cypress Cove），在通用本能的 ISO 频率下，针对大范围的工作负载实现了平均约 19% 的改进；

呈现出更高的并行性；

搭载英特尔高级矩形扩张（AMX），内置下一代 AI 加速提升技术，用于学习推理和训练。AMX 包括专用硬件和新指令集架构，以显著加速矩阵乘法运算；

减少时延，对大型数据和代码体积较大的应用程序供应更好的支援。

英特尔硬件线程调动器（Intel Thread Director）

为了让本能核和能效核与操作系统无缝协作，英特尔开发了一种改进版的调动技术，称为「英特尔硬件线程调动器（Intel Thread Director）」。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

该调动器直接内置于硬件中，可供应对内核状态和线程指令混合比的低级遥测，让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调动器具有动态性和自适应性——它会根据实时的盘算需求调整调动决策——而非一种简单的、鉴于规则的静态方法。

目前，英特尔正在优化 Thread Director，以在微软即将推出的 Windows 11 操作系统上获得最佳本能。

鉴于 Intel 7 制程的首个混合架构 Alder Lake

英特尔公布了首款集成能效核和本能核、并搭载崭新英特尔硬件线程调动器的混合架构「Alder Lake」，它鉴于 Intel 7 制程工艺打造而成，并采用了单一、高度可扩张的 SoC 架构，支援最新内存和最快 I/O。该架构适用于从移动端到台式机的产品，并且鉴于 Alder Lake 的产品将在今年开始出货。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

Alder Lake 将供应惊人的本能，支援从超便携式笔记本到发烧级再到商用台式机的所有客户端设备，它供应了以下三类产品设计形态：

高本能、双芯片、插座式的台式机处理器，具有领先本能和能效。支援高规格的内存和 I/O；

高本能笔记本处理器，采用 BGA 封装，并加入图像单位，更大的 X^e 显卡和 Thunderbolt 4 连接；

轻薄、低功耗的笔记本处理器，采用高密度的封装，配置优化的 I/O 和电能传输。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

构建如此高度可扩张架构的挑战，需要在不影响功率的情况下满足盘算和 I/O 代理对带宽超乎寻常的需求。为了解决这一挑战，英特尔设计了三种独立的内部总线，每一种都采用鉴于需求的实时启发式后处理方式：

盘算内部总线可支援高达 1000GBps——即每个内核或每集群 100GBps，通过最后一级缓存将内核和显卡连接到内存；

I/O 内部总线支援可高达 64GBps，连接不同类型的 I/O 和内部设备，能在不干扰设备正常运行的情况下无缝改变速度，选择内部总线速度来匹配所需的数据传输量；

内存结构可供应高达 204GBps 的数据，并动态扩张其总线宽度和速度，以支援高带宽、低时延或低功耗的多个操作点。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

英特尔还公布了台式机处理器的 I/O 信息，从下图可以看到，拥有最高 8 个本能核、8 个能效核、24 线程以及 30M 的 Non-inclusive LL 缓存。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

独立游戏显卡微架构 X^eHPG 及 Alchemist 系列 SoC

X^e HPG 是一款崭新的独立显卡微架构，专为游戏和创作工作负载供应发烧级的高本能。X^e HPG 微架构为 Alchemist 系列 SoC 供应动力，首批相关产品将于 2022 年第一季度上市，并采用新的品牌名——英特尔锐炫 Arc。X^e HPG 微架构采用崭新的 X^e 内核，是一款聚焦盘算、可编程且可扩张的元件。

英特尔公布了鉴于 X^e HPG 架构的客户端显卡路线图——Alchemist（此前称之为 DG2）、Battlemage、Celestial 和 Druid SoC。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

其中，鉴于 X^e HPG 微架构的 Alchemist SoC 产品能够供应出色的可扩张性和盘算效率，并拥有以下关键架构特征：

使用台积电的 N6 制程节点上进行制造；

多达 8 个具有固定功能的渲染切片，专为 DirectX 12 Ultimate 设计;

崭新 X^e 内核，拥有 16 个矢量引擎和 16 个矩阵引擎（被称为 XMX，即 X^e Matrix eXtension）、高速缓存和共享内部显存;

支援 DirectX Raytracing（DXR）和 Vulkan Ray Tracing 的新光线追踪单位；

通过架构、逻辑设计、电路设计、制程工艺技术和软件优化，相比 X^e LP 微架构实现 1.5 倍的频率提升和 1.5 倍的每瓦本能提升。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

英特尔分享了试产阶段 Alchemist SoC 的真实游戏展示（虚幻引擎 5 测试良好），以及崭新的鉴于神经网络的超取样技术 X^e SS 等。

X^ e SS是一种利用Alchemist的内置XMX AI加速、实现高本能和高保真视觉的崭新升频技术。该技术使用深度学习来合成非常接近原生高分辨率渲染质量的图像。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

目前，多家早期的游戏开发商已开始使用X^SS，本月将向独立软件供应商（ISV）供应XMX初始版本的SDK，DP4a版本将于今年晚些时候推出。

专为数据中心打造的下一代英特尔至强可扩张处理器 Sapphire Rapids

Sapphire Rapids 处理器鉴于 Intel 7 制程工艺技术，采用崭新的本能核微架构，旨在提高速度 / 突破低时延和单线程应用本能的极限。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

Sapphire Rapids 的核心是一个分区块、模块化的 SoC 架构，采用英特尔的嵌入式多芯片互连桥接（EMIB）封装技术，在保持单晶片 CPU 接口优势的同时，具有显著的可扩张性。

Sapphire Rapids 供应了一个单一、平衡的统一内存访问架构，每个线程均可完全访问缓存、内存和 I/O 等所有单位上的全部资源，由此实现整个 SoC 具有一致的低时延和高横向带宽。该处理器的主要构建块如下图所示：

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

此外，Sapphire Rapids 供应业界广泛的数据中心相关加速器，包括新的指令集架构和集成 IP，以在各种客户工作负载和使用中提升本能。通过无缝集成的加速器引擎赋能常见模式任务的卸载，提升内核效率。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

新的内置加速器包括：

英特尔加速器接口架构指令集（AIA）——支援对加速器和设备的有效调动、同步和信号传递；

英特尔高级矩阵扩张（AMX）——Sapphire Rapids 中引入的新加速引擎，可为深度学习算法核心的 Tensor 处理供应大幅加速。其可以在每个周期内进行 2000 次 INT8 运算和 1000 次 BFP16 运算，实现盘算能力的大幅提升；

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

英特尔数据流加速器（DSA）——旨在卸载导致数据中心规模部署开销的最常见数据移动任务。DSA 改进了对这些开销任务的处理，供应了更高的整体工作负载本能，并可以在 CPU、内存和缓存以及所有附加的内存、存储和网络设备之间移动数据。

总之，这些架构上的改进使得 Sapphire Rapids 能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式供应开箱即用的本能。

英特尔迄今最复杂、千亿晶体管的 SoC

英特尔发布了迄今为止最复杂的 SoC Ponte Vecchio，它拥有 1000 多亿个晶体管，供应业界领先的每秒浮点运算次数和盘算密度，以加速 AI、HPC 和高级分析工作负载。

据悉，Ponte Vecchio 已走下生产线进行上电验证，并已开始向客户供应限量样品。Ponte Vecchio 预计将于 2022 年面向 HPC 和 AI 市场发布。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

英特尔称，早期的 Ponte Vecchio 芯片展示了领先的本能，在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。其中，英特尔 A0 芯片本能供应高于 45 TFLOPS 的 FP32 吞吐量、高于 5 TBps 的内存结构带宽，以及高于 2 TBps 的连接带宽。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

Ponte Vecchio 鉴于 X^e-HPC 微架构，由多个复杂的设计组成，这些设计以单位形式呈现，然后通过嵌入式多芯片互连桥接（EMIB）单位进行组装，实现单位之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中，为提高功率和互连密度形成有源芯片的 3D 堆叠。高速 MDFI 互连允许 1 到 2 个堆栈的扩张。

Ponte Vecchio 的核心是盘算单位（Compute Tile）——一个密集的多 X^e 内核。盘算单位鉴于台积电先进的 N5 制程工艺，包含 8 个 X^e 内核和 4MB 一级缓存。此外，盘算单位具有极其紧凑的 36 微米凸点间距，可与 Foveros 进行 3D 堆叠。英特尔也已经通过设计基础设施设置和工具流程以及方法，为测试和验证该节点的单位铺平了道路。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

基础单位是 Ponte Vecchio 的连接组织。它是鉴于 Intel 7 制程工艺的大型芯片，针对 Foveros 技术进行了优化。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

最后是 X^e 链路单位（X^e Link Tile），它供应了 GPU 之间的连接，支援每单位 8 个链路。该单位对 HPC 和 AI 盘算的扩张至关重要，旨在旨在实现支援高达 90G 的更高速 SerDes，并且已被添加到「极光」（Aurora）百亿亿次级超级盘算机的扩张解决方案中。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

崭新基础设施处理器（IPU）

IPU 设计旨在使云和通信服务供应商减少在中央处理器（CPU）方面的开销，并充分释放本能价值。Mount Evans 是英特尔的第一个 ASIC IPU，旨在解决多样化和分散的数据中心的复杂性。Oak Springs Canyon 是一个 IPU 参考平台，采用 Intel Xeon D 处理器和 Intel Agilex FPGA。Intel N6000 加速开发平台专为鉴于 Xeon 的服务器设计。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

Mount Evans。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

Oak Springs Canyon。

参考链接：

https://mp.weixin.qq.com/s/2i2SDY9jD-TVFtemX9GlzQ

https://www.intel.com/content/www/us/en/newsroom/resources/press-kit-architecture-day-2021.html

{{userData.name}}已认证

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC，这次英特尔诚意满满

网易云信神经网络音频降噪算法：提升瞬态噪声抑制成效，适合移动端设备

服务量化投资，基于学问图谱的事务表征框架钻研入选SIGIR

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

{{userData.name}}已认证

网易云信神经网络音频降噪算法：提升瞬态噪声抑制成效，适合移动端设备

服务量化投资，基于学问图谱的事务表征框架钻研入选SIGIR

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

化学诺奖为何颁给「AI+生物」，凭什么Baker独占一半？

字节跳动清华AIR成立联合研究中心 推动大模型产学研合作

字节跳动清华AIR成立联合研究中心推动大模型产学研合作