崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

2021 年英特尔架构日上,英特尔发布一系列重大技术架构的改变和创新:两款崭新的 x86 内核架构(能效核与机能核)、代号为 Alder Lake 的首个机能混合架构、英特尔硬件线程调剂器、专为数据中心设计的下一代英特尔至强可扩大处理器 Sapphire Rapids 以及基础设施处理器(IPU)等内容。

8 月 20 日,2021 年英特尔架构日如约而至!会上,英特尔公司高级副总裁兼加速计较系统和图形事业部总经理 Raja Koduri 携手多位英特尔架构师,全面介绍了英特尔在 CPU、GPU 及 IPU 架构方面的重大进展。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

英特尔公布了一系列重大的改变与创新,总结如下:

首个机能混合架构 Alder Lake,以及其搭载的两款崭新的 x86 内核框架——能效核和机能核,以及英特尔硬件线程调剂器;

崭新的独立游戏图形处理器(GPU)架构 X^e HPG 微架构,这将是英特尔首款鉴于台积电 N6 工艺的 GPU;

专为数据中心打造的下一代英特尔至强可扩大处理器 Sapphire Rapids;

鉴于 X^e HPC 微架构的数据中心 GPU 架构 Ponte Vecchio;

崭新的基础设施处理器(IPU);

oneAPI 工具包:供应一个开放、规范、跨架构和跨厂商的统一软件栈,让开发者能够摆脱专有语言和编程模型的束缚。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

两款崭新 X86 内核能效核(Efficient Core)能效核曾用代号「Gracemont」,是一个高能效的 x86 微架构,旨在面向当今多任务场景,提高吞吐量效率并供应可扩大多线程机能。该架构致力于通过低电压能效核降低整体功率消耗,为更高频率运行供应功率热空间。同时能效核的机能也得到了提升,将能满足更多动态任务负载。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

能效核可以在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进一些功能以提高机能,包括:

拥有 5000 个条目的分支目标缓存区,实现更准确的分支预测;

64KB 指令缓存,在不耗费内存子系统功率的情况下保存可用指令;

英特尔的首款按需指令长度解码器,可生成预解码信息;

英特尔的簇乱序执行解码器,可在保持能效的同时,每周期解码多达 6 条指令;

后端宽度(Wide Back End)具备 5 组宽度分配(Five-wide allocation)和 8 组宽度引退、256 个乱序窗口入口和 17 个执行端口;

支撑英特尔控制流强制技术和英特尔虚拟化技术重定向保护等功能;

实现了 AVX 指令集以及支撑整数人工智能操作的新扩大。

相比于英特尔最多产的 CPU 内核 Skylake,在单线程机能下,能效核能够在相同的功耗下实现 40% 的机能提升,或在功耗不到 40% 的情况下供应同等机能。与运行四个线程的两个 Skylake 内核相比,四个能效核所供应的吞吐量机能,能够在功耗更低的情况下带来 80% 的机能提升,而在供应相同吞吐量机能的情况下,功耗将减少 80%。机能核(Performance Core)工作负载的代码体积正在不断增长,需要更强的执行能力。数据集也随着数据带宽的需求提升而大幅增加。英特尔崭新机能核微架构旨在提高速度,突破低时延和单线程应用程序机能的限制,曾用代号「Golden Cove」。该架构在带来显著增速的同时,能够更好地支撑代码体积较大的应用程序。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

机能核是英特尔有史以来构建的机能最高的 CPU 内核,并通过以下功能突破了低时延和单线程应用程序机能的极限:

相比于目前的第 11 代英特尔酷睿处理器架构(Cypress Cove),在通用机能的 ISO 频率下,针对大范围的工作负载实现了平均约 19% 的改进;

呈现出更高的并行性;

搭载英特尔高级矩形扩大(AMX),内置下一代 AI 加速提升技术,用于学习推理和训练。AMX 包括专用硬件和新指令集架构,以显著加速矩阵乘法运算;

减少时延,对大型数据和代码体积较大的应用程序供应更好的支撑。

英特尔硬件线程调剂器(Intel Thread Director)为了让机能核和能效核与操作系统无缝协作,英特尔开发了一种改进版的调剂技术,称为「英特尔硬件线程调剂器(Intel Thread Director)」。 

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

该调剂器直接内置于硬件中,可供应对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上。硬件线程调剂器具有动态性和自适应性——它会根据实时的计较需求调整调剂决策——而非一种简单的、鉴于规则的静态方法。目前,英特尔正在优化 Thread Director,以在微软即将推出的 Windows 11 操作系统上获得最佳机能。鉴于 Intel 7 制程的首个混合架构 Alder Lake英特尔公布了首款集成能效核和机能核、并搭载崭新英特尔硬件线程调剂器的混合架构「Alder Lake」,它鉴于 Intel 7 制程工艺打造而成,并采用了单一、高度可扩大的 SoC 架构,支撑最新内存和最快 I/O。该架构适用于从移动端到台式机的产品,并且鉴于 Alder Lake 的产品将在今年开始出货。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

Alder Lake 将供应惊人的机能,支撑从超便携式笔记本到发烧级再到商用台式机的所有客户端设备,它供应了以下三类产品设计形态:

高机能、双芯片、插座式的台式机处理器 ,具有领先机能和能效。支撑高规格的内存和 I/O;

高机能笔记本处理器,采用 BGA 封装,并加入图像单位,更大的 X^e 显卡和 Thunderbolt 4 连接;

轻薄、低功耗的笔记本处理器,采用高密度的封装,配置优化的 I/O 和电能传输。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

构建如此高度可扩大架构的挑战,需要在不影响功率的情况下满足计较和 I/O 代理对带宽超乎寻常的需求。为了解决这一挑战,英特尔设计了三种独立的内部总线,每一种都采用鉴于需求的实时启发式后处理方式

 计较内部总线可支撑高达 1000GBps——即每个内核或每集群 100GBps,通过最后一级缓存将内核和显卡连接到内存;

I/O 内部总线支撑可高达 64GBps,连接不同类型的 I/O 和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量;

内存结构可供应高达 204GBps 的数据,并动态扩大其总线宽度和速度,以支撑高带宽、低时延或低功耗的多个操作点。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

英特尔还公布了台式机处理器的 I/O 信息,从下图可以看到,拥有最高 8 个机能核、8 个能效核、24 线程以及 30M 的 Non-inclusive LL 缓存

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

独立游戏显卡微架构 X^eHPG 及 Alchemist 系列 SoCX^e HPG 是一款崭新的独立显卡微架构,专为游戏和创作工作负载供应发烧级的高机能。X^e HPG 微架构为 Alchemist 系列 SoC 供应动力,首批相关产品将于 2022 年第一季度上市,并采用新的品牌名——英特尔锐炫 Arc。X^e HPG 微架构采用崭新的 X^e 内核,是一款聚焦计较、可编程且可扩大的元件。英特尔公布了鉴于 X^e HPG 架构的客户端显卡路线图——Alchemist(此前称之为 DG2)、Battlemage、Celestial 和 Druid SoC。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

其中,鉴于 X^e HPG 微架构的 Alchemist SoC 产品能够供应出色的可扩大性和计较效率,并拥有以下关键架构特征:

使用台积电的 N6 制程节点上进行制造;

多达 8 个具有固定功能的渲染切片,专为 DirectX 12 Ultimate 设计;

崭新 X^e 内核,拥有 16 个矢量引擎和 16 个矩阵引擎(被称为 XMX,即 X^e Matrix eXtension)、高速缓存和共享内部显存;

支撑 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光线追踪单位;

通过架构、逻辑设计、电路设计、制程工艺技术和软件优化,相比 X^e LP 微架构实现 1.5 倍的频率提升和 1.5 倍的每瓦机能提升。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

 英特尔分享了试产阶段 Alchemist SoC 的真实游戏展示(虚幻引擎 5 测试良好),以及崭新的鉴于神经网络的超取样技术 X^e SS 等。

X^ e SS是一种利用Alchemist的内置XMX AI加速、实现高机能和高保真视觉的崭新升频技术。该技术使用深度学习来合成非常接近原生高分辨率渲染质量的图像。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

目前,多家早期的游戏开发商已开始使用X^SS, 本月将向独立软件供应商(ISV)供应XMX初始版本的SDK,DP4a版本将于今年晚些时候推出。

专为数据中心打造的下一代英特尔至强可扩大处理器 Sapphire RapidsSapphire Rapids 处理器鉴于 Intel 7 制程工艺技术,采用崭新的机能核微架构,旨在提高速度 / 突破低时延和单线程应用机能的极限。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

Sapphire Rapids 的核心是一个分区块、模块化的 SoC 架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片 CPU 接口优势的同时,具有显著的可扩大性。Sapphire Rapids 供应了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和 I/O 等所有单位上的全部资源,由此实现整个 SoC 具有一致的低时延和高横向带宽。该处理器的主要构建块如下图所示:

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

此外,Sapphire Rapids 供应业界广泛的数据中心相关加速器,包括新的指令集架构和集成 IP,以在各种客户工作负载和使用中提升机能。通过无缝集成的加速器引擎赋能常见模式任务的卸载,提升内核效率。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

新的内置加速器包括:

英特尔加速器接口架构指令集(AIA)——支撑对加速器和设备的有效调剂、同步和信号传递;

英特尔高级矩阵扩大(AMX)——Sapphire Rapids 中引入的新加速引擎,可为深度学习算法核心的 Tensor 处理供应大幅加速。其可以在每个周期内进行 2000 次 INT8 运算和 1000 次 BFP16 运算,实现计较能力的大幅提升;

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

 英特尔数据流加速器(DSA)——旨在卸载导致数据中心规模部署开销的最常见数据移动任务。DSA 改进了对这些开销任务的处理,供应了更高的整体工作负载机能,并可以在 CPU、内存和缓存以及所有附加的内存、存储和网络设备之间移动数据。总之,这些架构上的改进使得 Sapphire Rapids 能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式供应开箱即用的机能。英特尔迄今最复杂、千亿晶体管的 SoC英特尔发布了迄今为止最复杂的 SoC Ponte Vecchio,它拥有 1000 多亿个晶体管,供应业界领先的每秒浮点运算次数和计较密度,以加速 AI、HPC 和高级分析工作负载。据悉,Ponte Vecchio 已走下生产线进行上电验证,并已开始向客户供应限量样品。Ponte Vecchio 预计将于 2022 年面向 HPC 和 AI 市场发布。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

英特尔称,早期的 Ponte Vecchio 芯片展示了领先的机能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。其中,英特尔 A0 芯片机能供应高于 45 TFLOPS 的 FP32 吞吐量、高于 5 TBps 的内存结构带宽,以及高于 2 TBps 的连接带宽。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

Ponte Vecchio 鉴于 X^e-HPC 微架构,由多个复杂的设计组成,这些设计以单位形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单位进行组装,实现单位之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中,为提高功率和互连密度形成有源芯片的 3D 堆叠。高速 MDFI 互连允许 1 到 2 个堆栈的扩大。Ponte Vecchio 的核心是计较单位(Compute Tile)——一个密集的多 X^e 内核。计较单位鉴于台积电先进的 N5 制程工艺,包含 8 个 X^e 内核和 4MB 一级缓存。此外,计较单位具有极其紧凑的 36 微米凸点间距,可与 Foveros 进行 3D 堆叠。英特尔也已经通过设计基础设施设置和工具流程以及方法,为测试和验证该节点的单位铺平了道路。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

基础单位是 Ponte Vecchio 的连接组织。它是鉴于 Intel 7 制程工艺的大型芯片,针对 Foveros 技术进行了优化。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

最后是 X^e 链路单位(X^e Link Tile),它供应了 GPU 之间的连接,支撑每单位 8 个链路。该单位对 HPC 和 AI 计较的扩大至关重要,旨在旨在实现支撑高达 90G 的更高速 SerDes,并且已被添加到「极光」(Aurora)百亿亿次级超级计较机的扩大解决方案中。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

崭新基础设施处理器(IPU)IPU 设计旨在使云和通信服务供应商减少在中央处理器(CPU)方面的开销,并充分释放机能价值。Mount Evans 是英特尔的第一个 ASIC IPU,旨在解决多样化和分散的数据中心的复杂性。Oak Springs Canyon 是一个 IPU 参考平台,采用 Intel Xeon D 处理器和 Intel Agilex  FPGA。Intel N6000 加速开发平台专为鉴于 Xeon 的服务器设计。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

Mount Evans。

崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

Oak Springs Canyon。参考链接:https://mp.weixin.qq.com/s/2i2SDY9jD-TVFtemX9GlzQhttps://www.intel.com/content/www/us/en/newsroom/resources/press-kit-architecture-day-2021.html

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/zhan-xin-x86-nei-he-jia-gou-xess-shen-jing-wang-luo-chao/

(0)
上一篇 2021年 8月 19日 下午2:18
下一篇 2021年 8月 22日 下午12:09

相关推荐

  • AI保障反讹诈-病历结构化服务已落地应用

    保障科技的快速发展正在为保障业加速转型升级带来全新契机, 科技创新正深刻改变着保障的业务流程。病历结构化服务,助力其核保业务科技化高效化。项目背景1.政策背景近年来,随着保障覆盖面逐步扩大,保障讹诈案件数量也随之逐年增加,并且不断“花样”翻新。面对这一事关行业健康持续发展根基的难题,保障业正在积极寻求答案。根据国际保障监管者协会测算,全球每年约有20%-30%的保障赔款涉嫌讹诈,损失金额约800亿美元,险企迫切需要更加智慧化的核保风控系统解决这一问题。由于保费占比高、金额大,车险和健康险这两

    2021年 10月 18日
  • 准确率达 95%,机械进修猜测复杂新质料合成

    编辑/绿萝科学家和机构每年都投入非常多的资源来发明新质料,以期为燃料提供催化剂。随着自然资源的减少,以及对更高价值和先进性能产品的需求增长,钻研职员越来越多地关注到纳米质料。但识别新质料的连续尝试方法对质料发明施加了不可逾越的限制。近日,美国西北大学和丰田钻研所(TRI)的钻研职员应用机械进修来指导新纳米质料的合成,消除了质料发明相关的障碍。这种训练有素的算法,可通过界说数据集来准确猜测可用于清洁能源、化学和汽车行业燃料的重要催化剂。该钻研以「Machine learning–accelerated design

    2021年 12月 30日
  • 2021阿里环球数学角逐预选赛试题出炉:5万人参赛,第一题只有2000多人选对了(附答案)

    第一道单选题,只有2251位参赛者选出了正确答案「C」。

    2021年 5月 19日
  • 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

    2021年 3月 2日
  • 2021年的第一盆冷水:有人说别太把图神经网络当回事儿

    图神经网络(GNN)是目前热门的研究方向,但我们是否应把注意力过多地放在这上面?数据科学家 Matt Ranger 从模型的本质、性能基准测试、实践应用等方面陈述了自己的观点。

    2021年 1月 5日
  • FC 2022 | 基于博弈论分析的非同质化代币证券化与回购商场

    本文是 FC 2022入选论文《ABSNFT: Securitization and Repurchase Scheme for Non-Fungible Tokens Based on Game Theoretical Analysis》的解读。该论文为北京大学前沿计算研究中心算法博弈论实验室2021年暑期夏令营的科研结果,指导老师为北京大学前沿计算研究中心邓小铁教授和苏州科技大学程郁琨教授。文章提出了一种将区块链上的非同质化代币(Non-Fungible Token, NFT)进行证券化与回购的规划,并基于博弈论对该规划进行理论分析。

    2022年 7月 18日
  • 1.8M超轻量方向检测模型NanoDet,比YOLO跑得快,上线两天Star量超500

    如何把 anchor-free 模型移植到静止端或嵌入式设备?这个项目对单阶段检测模型三大模块(Head、Neck、Backbone)进行轻量化,得到模型大小仅 1.8m、速度超快的轻量级模型 NanoDet-m。

    2020年 11月 24日
  • 一块V100运转上千个智能体、数千个情况,这个「曲率引擎」框架实行RL百倍提速

    在加强进修研究中,一个实验就要跑数天或数周,有没有更快的方法?近日,来自 SalesForce 的研究者提出了一种名为 WarpDrive(曲率引擎)的开源框架,它可以在一个 V100 GPU 上并行运转、训练数千个加强进修情况和上千个智能体。实验结果表明,与 CPU+GPU 的 RL 实行相比,WarpDrive 靠一个 GPU 实行的 RL 要快几个数量级。

    2021年 9月 12日
  • AI+Science手艺实践与产业运用中的挑战与机遇

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI手艺」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI规模知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要手艺和学术热点,盘点AI产业的年度研究标的目的以及重大科技突破,展望2022年度AI手艺发展标的目的、AI手艺与产业科技融合趋势。

    2022年 8月 1日
  • 单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技能最关键

    当单芯片处理器已达到极限,苹果和英伟达相继公布的芯片证明多芯片封装或许才是未来发展方向,但互连技能仍是一大难题和巨擘角逐的主战场。

    2022年 4月 10日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注