TensorFlow 2.4来了：上线对分布式训练和混合精度的新功能反对

机器之心 • 2020年 12月 15日下午3:18 • AI

今天，谷歌正式发布了 TensorFlow 2.4，带来了多项新特性和功能改进。

TensorFlow 2.4 的革新包括对于分布式训练和混合精度的新功能反对，对 NumPy API 子集的试验性反对以及一些用于监测本能瓶颈的新工具。

根据 TensorFlow 官方博客，本次革新的主要内容整理如下：

tf.distribute 中的新功能

参数服务器策略

在 TensorFlow 2.4 中，tf.distribute 模块引入了对利用 ParameterServerStrategy 和自定义训练循环进行模型异步训练的试验性反对。和 MultiWorkerMirroredStrategy 类似，ParameterServerStrategy 是一种多职责器（multi-worker）数据并行策略，但梯度革新是异步的。

参数服务器训练集群由职责服务器和参数服务器组成。变量在参数服务器上创建，然后在每个步骤中由职责器读取和革新。变量的读取和革新在职责器之间是独立进行的，不存在任何同步。由于职责器彼此不依赖，因此该策略具有职责器容错的优势，如果利用可抢占 VM，该策略将很有用。

多职责器镜像策略

MultiWorkerMirroredStrategy 已经脱离试验阶段，成为稳定的 API。像单职责器的 MirroredStrategy 一样，MultiWorkerMirroredStrategy 通过同步数据并行实现分布式训练，顾名思义，借助 MultiWorkerMirroredStrategy 可以在多台机器上进行训练，每台机器都可能具有多个 GPU。

Keras 革新

混合精度

在 TensorFlow 2.4 中，Keras 混合精度 API 已经脱离试验阶段，成为稳定的 API。大多数 TensorFlow 模型利用 float32 dtype，但现在有些低精度数据类型占用的内存更少，比如 float16。混合精度指的是在同一模型中利用 16 位和 32 位浮点数以进行更快的训练。这一 API 可将模型本能在 GPU 上提高到 3 倍，在 TPU 上提高 60%。要利用混合精度 API，必须利用 Keras 层和优化器，但不一定需要利用其他 Keras 类。

优化器

本次革新包括重构 tf.keras.optimizers.Optimizer 类，让 model.fit 的用户和自定义训练循环的用户能够编写可与任何优化器一起利用的训练代码。所有内置 tf.keras.optimizer.Optimizer 子类都可接受 gradient_transformers 和 gradient_aggregator 参数，轻松定义自定义梯度变换。

重构之后，利用者可以在编写自定义训练循环时直接将损失张量传递给 Optimizer.minimize：

tape = tf.GradientTape()with tape: y_pred = model(x, training=True) loss = loss_fn(y_pred, y_true)# You can pass in the `tf.GradientTape` when using a loss `Tensor` as shown below.optimizer.minimize(loss, model.trainable_variables, tape=tape)

这些革新的目标是让 Model.fit 和自定义训练循环与优化器细节更加不相关，从而让利用者无需修改即可编写出与任何优化器共同利用的训练代码。

最后，TensorFlow 2.4 的革新还包括 Keras Functional API 内部的重构，改善了函数式模型构造所产生的内存消耗并简化了触发逻辑。这种重构可以保证 TensorFlowOpLayers 的行为可预测，并且可以利用 CompositeTensor 类型签名（type signature）。

tf.experimental.numpy

TensorFlow 2.4 引入了对 NumPy API 子集的试验性反对。该模块可以运行由 TensorFlow 加速的 NumPy 代码，由于这一 API 是基于 TensorFlow 构建的，因此可与 TensorFlow 无缝衔接，允许访问所有 TensorFlow API 并通过编译和自动矢量化提供优化后的运行。

例如，TensorFlow ND 数组可以与 NumPy 函数互通，类似地，TensorFlow NumPy 函数可以接受包括 tf.Tensor 和 np.ndarray 在内的不同类型输入。

import tensorflow.experimental.numpy as tnp# Use NumPy code in input pipelinesdataset = tf.data.Dataset.from_tensor_slices( tnp.random.randn(1000, 1024)).map(lambda z: z.clip(-1,1)).batch(100)# Compute gradients through NumPy codedef grad(x, wt):with tf.GradientTape() as tape: tape.watch(wt) output = tnp.dot(x, wt) output = tf.sigmoid(output)return tape.gradient(tnp.sum(output), wt)

新的本能分析工具

TensorFlow Profiler 是度量 TensorFlow 模型的训练本能和资源消耗情况的工具，用来诊断本能瓶颈，最终加快训练速度。

此前，TensorFlow Profiler 反对多 GPU 单主机训练。到了 2.4 版本，利用者可以测试 MultiWorkerMirroredStrategy 的训练职责了，比如利用采样模式 API 按需配置，并连接到 MultiWorkerMirroredStrategy 职责器正在利用的同一服务器。

# Start a profiler server before your model runs.tf.profiler.experimental.server.start(6009)# Model code goes here….# E.g. your worker IP addresses are 10.0.0.2, 10.0.0.3, 10.0.0.4, and you# would like to profile for a duration of 2 seconds. The profiling data will# be saved to the Google Cloud Storage path “your_tb_logdir”.tf.profiler.experimental.client.trace('grpc://10.0.0.2:6009,grpc://10.0.0.3:6009,grpc://10.0.0.4:6009','gs://your_tb_logdir',2000)

另外，你可以通过向捕获配置文件工具提供职责器地址来利用 TensorBoard 配置文件插件。配置之后，你可以利用新的 Pod Viewer tool 来选择训练步骤，并查看所有职责器上该步骤的 step-time 的细分。

TFLite Profiler

TFLite Profiler 则反对在 Android 中跟踪 TFLite 内部信息，以识别本能瓶颈。

GPU 反对

TensorFlow 2.4 与 CUDA 11 和 cuDNN 8 配合运行，反对最新发布的英伟达安培架构 GPU，对于 CUDA 11 的新特性，可以参考英伟达开发者博客：

CUDA 11 Features Revealed

在新版本中，默认情况下会启用安培 GPU 的新特性——对 TensorFloat-32 的反对。TensorFloat-32 又简称为 TF32，是英伟达 Ampere GPU 的一种数学精度模式，可导致某些 float32 运算（如矩阵乘法和卷积）在安培架构 GPU 上运行得更快，但精度略有降低。

若想更深入了解，可参阅文档：

https://www.tensorflow.org/api_docs/python/tf/config/experimental/enable_tensor_float_32_execution

原创文章，作者：机器之心，如若转载，请注明出处：https://www.iaiol.com/news/tensorflow24-lai-le-shang-xian-dui-fen-bu-shi-xun-lian-he/

机器之心

来一场冬日技巧狂欢！WAVE SUMMIT+2020深度进修开发者峰会报名启动

上一篇 2020年 12月 11日下午5:47

不氪金玩转中文超大规模预训练，这里有一份详细攻略

下一篇 2020年 12月 18日下午2:12

AI

人工智能帮助创造系外行星上的份子，甚至有一天大概会创造新的物理定律

编辑 | 萝卜皮你知道地球的大气是由什么组成的吗？你大概记得它是氧气，也大概是氮气。借助 Google 的一点帮助，您可以轻松得出更精确的谜底：78% 的氮气、21% 的氧气和 1% 的氩气。大气可以表明行星的性质，以及它们是不是可以承载生命。然而，当谈到外大气层——太阳系外行星的大气层——的组成时，谜底是未知的。由于系外行星如此遥远，已证明探测它们的大气层极其困难。研讨表明，人工智能 (AI) 大概是探索它们的最佳选择——但前提是能够证明这些算

2021年 12月 10日
AI

WAIC开发者日Workshop预告：超参数科技如何索求海量AI计划问题

近年来，无论是在学术研究还是产业落地层面，关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题，不管是谷歌、微软、IBM 等全球科技巨头，还是国内一众 AI 龙头企业，均积极投身于智能计划的相关研究。其中，海量 AI 如何在大型开放世界做智能计划，是推动智能计划手艺发展、加速社会智能化转型的重要问题，也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题，超参数科技联合麻省理工学院、清华大学深圳国际研究生院，以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

2022年 8月 30日
AI

墨芯首席科学家严恩勖：为什么说茂密化是AI计较的将来

主讲人：严恩勖墨芯人工智能联合创始人 & 首席科学家卡内基梅隆大学机器学习博士神经网络动态茂密算法发明者视频简介：10年前，AI计较优化大多提防在优化算法的计较复杂度上，近年来随着AI产业化，AI计较优化更多注重在硬件的算力提拔上。当前，硬件所能带来的算力提拔已贴近限度，AI优化计较的将来将是算法与硬件架构的共同优化，以及建立相应的软件生态。茂密化计较，带来数量级的算力提拔，将成为将来AI计较优化的领航者。视频内容：

2022年 7月 18日
AI

视频天生无需GAN、VAE，谷歌用聚集模型联合训练视频、图象，实现新SOTA

聚集模型正在不断的「攻城略地」。

2022年 4月 10日
AI

[研究问卷] AI数据猎取与绽放的近况调查

你是AI从业者或学习者吗？缺少数据做 AI 训练或尝试？华夏情境和语言的数据太少？那就来到场调研，一同改变近况吧！关于问卷我们是《AI 数据绽放的近况与标杆案例呈报》研究团队，由上海白玉兰开源绽放研究院与绽放数据华夏联合组成。我们的效果预期于 2022 年世界人工智能大会期间，由木兰开源社区和白玉兰开源联名颁布。你或许记得我们在 2021 年为了规范和促进 AI 数据绽放所颁布的「木兰-白玉兰绽放数据协议」，而我们现在的研究工作则旨在排摸现在供 AI 训练、尝试所使用的的AI 数据的猎取与绽放情况，从而进一步推出「

2022年 4月 14日
AI

AnchorDx通过鉴于深度进修的连续向量默示甲基化地区

编辑 | 萝卜皮基准调理（AnchorDx）成立于 2015 年，是一家国内领先的采用甲基化高通量测序进行癌症早筛早诊产物开发的公司。创始人范建兵博士是基因检测畛域的国内领军人物，拥有近 30 年从事人类基因组学、基因芯片（Microarrays）及高通量测序技术开发的经验。基准调理是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业，并自立构建了全球最大的中国人群癌症初期甲基化数据库。自创立以来，基准调理一直致力于自立开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产物，产物管线覆盖了包括肺癌、

2021年 12月 30日
AI

Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播第十一期主题：Spark 大数据处理最佳实践讲师：简锋，阿里云 EMR 数据开发平台负责人内容框架：大数据概览如何摆脱技术小白Spark SQL 进修框架EMR Studio 上的大数据最佳实践直播回放：扫描文章底部二维码加入钉群观看回放，或进入链接https://developer.aliyun.com/live/247072一、大数据概览大数据处理 ETL (Data → Data)大数据分析 BI (Data &nbs

2021年 8月 11日
AI

Jupyter笔记本实现，慕尼黑工大220页免费书引见鉴于物理的深度进修

物理常识和深度进修已经成为了解决现实课题的绝佳组合，但如何更有效地将物理模型引入深度进修领域缺少一个全面的综述。慕尼黑工业大学计算机科学副教授 Nils Thuerey 团队编写的这本书对鉴于物理的深度进修展开了详尽的引见。书地址：https://arxiv.org/pdf/2109.05237.pdf项目地址：https://github.com/thunil/Physics-Based-Deep-Learning网站地址：https://www.physicsbaseddeeplearning.org/di

2021年 9月 16日
AI

对抗图象变幻进犯，腾讯OVB-AI手艺中心获NeurIPS2021图象近似度寻衅赛季军

近日，在 AI 顶会 NeurIPS 2021 的图象近似度寻衅赛中（Image Similarity Challenge），来自腾讯在线视频 BU-AI 手艺中心的团队，在 Matching Track 赛道战胜来自全球 1000 多支队伍，荣获季军。

2022年 1月 9日
AI

超越现有标的57.3%，邢波教授、胡志挺教授团队提出一致NLG评估框架

长期以来，评估机器天生的文本比较困难。近日，CMU邢波（Eric Xing）教授和UCSD胡志挺（Zhiting Hu）教授的团队提出用一种运算符，一致各类天生恣意的评估方式，为未来各种新恣意、新要求提供了更加一致的指导。实验表明，基于一致框架安排的评估标的，在多个恣意上超过了现有标的与野生评分的类似度，现在通过PyPI和GitHub可以直接调用。

2022年 1月 28日

TensorFlow 2.4来了：上线对分布式训练和混合精度的新功能反对

相关推荐

发表回复