有bug!PyTorch在AMD CPU的计算机上卡死了

AMD,No?PyTorch在AMD CPU的呆板上消失死锁了。

PyTorch 作为呆板学习中广泛运用的开源框架,具有速度快、效率高等特点。而近年来广受好评的 AMD 处理器具有多核、多任务性能良好、性价比高等优势。开发者们一直希望二者联合起来,在 AMD 处理器上运用 PyTorch 进行深度学习的开发和研究。

前段时间发布的 PyTorch 1.8 新增了对 AMD ROCm 的支持,对于想在 AMD 上用 PyTorch 进行深度学习的开发者来说,这是一个好消息。 

但是,对运用 AMD cpu 的开发者用 PyTorch 做 AI 开发,也许没那么顺利。

这不,我们就从 PyTorch 的 Github 上发现这么一个还未办理的 issue。

有bug!PyTorch在AMD CPU的计算机上卡死了

GitHub 地址:https://github.com/pytorch/pytorch/issues/52142

有开发者表示:PyTorch 在 AMD CPU 的计算机上,用数据并行单机和多 GPU 训练 CNN 会导致死锁,而相同的代码在 Intel CPU 的计算机中就不会消失死锁。TensorFlow 也不会消失这种课题。

遇到了什么 bug

让我们来具体看一下这个死锁是怎么产生的?

在提交的 Issue 中,开发者表述在训练的 for 循环中,代码会一直运行,直到前向传播 output = model(images)。代码会一直停留在 model(images)阶段,而 gpu 的利用率为 0% (内存占用率不是 0),有 3 个 cpu 核的利用率达到 100%,而其他 cpu 核为 0%。运用 ctrl+c 和 ctrll+z 停止后,历程 PID 和 GPU 内存运用情况保持不变。kill 、pkill 和 fuser -k /dev/nvidia * 命令导致僵尸历程(也称为 Defunct 历程)。僵尸历程的父历程 pid 为 1,因此不能 kill 它。唯一的办理办法是重新启动系统。

代码在 3 台 Intel cpu 计算机上运行良好,但在 4 台运用 AMD cpu 的呆板上就会消失上述课题。开发者进一步测试了 GTX 1080、Titan V、 Titan RTX、Quadro RTX 8000 和 RTX 3090,证明该 bug 与 GPU 模型无关。

此外,该项目还提到分布式数据并行(DDP)也存在类似的课题。

感兴趣的开发者可以按照如下配置复现一下这个 bug:

运用带有 AMD cpu 和多个 NVIDIA gpu 的呆板;

Linux、Python3.8、cuda 11.0、pytorch 1.7.1、 torchvision 0.8.2;

编写代码在 torchvision 中训练 resnet18 模型;

可以尝试测试数据并行 (DP) 和分布式数据并行(DDP),以检查是否都会消失这种情况。

根据该项目的描述,复现之后可能会消失:

当运用 AMD cpu 时,在训练的第一个 epoch 和第一次迭代的前向传播时会发生死锁;

当运用 intel cpu 时,相同的代码运行良好。

尚未办理

对于这次发现的 bug,有网友表示也存在相同的课题。

有bug!PyTorch在AMD CPU的计算机上卡死了

发现该 bug 的研究者在 ImagNet、mini ImageNet、 CIFAR 10 以及其他数据集上进行了实验,由于 CIFAR 10 具有轻量级、利于调试的特点,因此开发者在 CIFAR 10 上给出了相应的代码示例:

有bug!PyTorch在AMD CPU的计算机上卡死了

此外,有开发者表示运用 TensorFlow 则不会消失该 bug。

提交 Issue 后,PyTorch 运维团队的成员也留言参与了讨论,在被问到「测试阶段是否包含运用 AMD CPU 的用例」时,该成员表示:「在和其他队友讨论之后,我们意识到测试中没有涉及 AMD CPU 的用例,目前我们还没有办法重现这个课题。如果今年晚些时候我们通过支持更多的硬件类型改进了测试环境,将重新讨论这个课题。」

有bug!PyTorch在AMD CPU的计算机上卡死了

此前有网友发现了 AMD cpu 下 PyTorch 多卡并行卡死的课题,查看日志之后找到错误原因,课题才得以办理。而这次暴露的 bug 目前仍未办理。

参考链接:

https://github.com/pytorch/pytorch/issues/52142

https://blog.csdn.net/aakwnam6338/article/details/101270942

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/you-bug-pytorch-zai-amdcpu-de-ji-suan-ji-shang-ka-si-le/

(0)
上一篇 2021年 3月 30日 下午2:26
下一篇 2021年 3月 30日 下午6:19

相关推荐

  • 行业现状令人失望,工作之后我又回到UC伯克利读博了

    呆板学习领域近来受到大模型的冲击,很多小公司表示难以承担大模型的训练费用。但行业中呆板学习工程的发展具体是怎样的?

    2022年 7月 19日
  • 抓取了1400家科技公司的雇用信息,我发现数据工程师比数据迷信家更有市场

    「作为数据迷信家,我还有机会吗?」不,你更应该成为数据工程师。

    2021年 1月 20日
  • Yann LeCun主讲,纽约大学《深度进修》2021春季课程放出,免费可看

    Yann LeCun 主讲的《深度进修》课程现已全部在线可看!

    2021年 11月 16日
  • 谷歌、Meta如何给大模型瘦身?谷歌工程师亲述摆设秘籍(免费书)

    这是一本正在写作的旧书,目前前四章已经放出了初稿。

    2022年 5月 3日
  • 服务量化投资,基于学问图谱的事宜表征框架钻研入选SIGIR

    瞰点科技和上海交大的钻研团队提出了一种服务于量化投资的基于学问图谱的事宜表征框架,称为 Knowledge Graph-based Event Embedding Framework(KGEEF)。通过在真实股票市场上进行的大规模实行表明,本文提出的格式显著有助于量化投资的政策提升。

    2021年 8月 22日
  • 人工智能向“上”生长,可托AI渐行渐近

    一位刚刚上路的新手驾驭员,如何成长为「老司机」?显然,Ta必须经过足够时间和里程的驾驭练习,才不妨熟练、从容地应对各种可能出现的路况和紧急事件。所以尽管主动驾驭系统也会在投入使用之前历经大量的真实道路测试,但就算是科学文明相当普及的今天,仍有很多人依旧做不到将开车这件事「放心地交给AI」,毕竟摆在人们眼前的却是道不尽的争议和说不明的驾驭事变,而事变的发生可能是手艺,算法,道路,数据,传输,天气,驾驭员等多重主客观因素影响造成的,权责划分十分困难。具体从算法层面看,由于驾驭场景天然对危险性有更高要求,这就需要主动驾驭

    2021年 12月 24日
  • 墨芯首席科学家严恩勖:用稠密化解决时代最严峻的算力寻衅

    人工智能进入黄金时代,正改变各行各业以及我们的日常生活。今日集微网报道,随着人工智能使用的普及,稠密化进入人工智能行业的主流企业视野。稠密化估计能帮助人工智能突破硬件算力极限,有望实行十倍、甚至百倍的人工智能使用加快,并大幅降低估计成本。墨芯人工智能从诞生起,即专注于稠密化估计产品和解决方案,独创双稠密算法,为客户提供高品质AI估计解决方案,携手共创AI估计未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业劣势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:集微网:在AI报告

    2022年 7月 12日
  • INDEMIND: 打造标准化机器人AI方案,行业关键手艺供应商价值凸显

    4年深耕低速自动驾驶手艺,打造标准化机器人解决方案,INDEMIND已然破茧成蝶,成为国内最大的机器人关键AI手艺供应商之一。在疫情催化之下,爆发式增长的不只是办事机器人商场,根据数据统计,今年超10万家机器人相关企业成立,随着机器人公司、传统企业、新晋企业陆续进场,一场不可避免的“争夺战”已在悄然中激烈展开。根据IFR数据显示,2016 年以来,全球办事机器人商场规模年均增速达 23.8%,2021 年预计达到 125.26亿美元,到 2023 年,全球办事机器人商场有望突破 201亿美元

    2021年 12月 9日
  • 参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

    构建越来越大的模型并不是提高性能的唯一方法。

    2022年 1月 4日
  • 图神经网络精确预计有机化合物性质,加速静态电池的设计

    编辑/绿萝大规模从头较量争论与布局预计的进步相结合,在有机功能资料的发觉中发挥了重要作用。目前,在有机资料的广阔化学空间中,只发觉了一小部分。实验和较量争论研讨职员都需要加速探索未知的化学空间。来自美国国家可再生能源实验室(NREL)、科罗拉多矿业学院和伊利诺伊大学的研讨职员展示了一种可以精确预计有机化合物性质的机械进修方法。展示了基态(GS)和更高能量布局的平衡训练数据集,对使用通用图神经网络(GNN)架构精确预计总能量的重要性。该研讨可加速静态电池的设计。该研讨以「Predicting energy and stabi

    2021年 12月 24日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注