GPU

  • 仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

    大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型从事微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,利用者需要根据自己的数据对这些开源模型从事微调,才能

    AI 2024年 5月 6日
  • 向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

    这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 处置器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,老本却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型

    2024年 3月 6日
  • 性能提升、成本降低,这是分布式强化进修算法最新研究进展

    深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于盘算机视觉和自然语言处理领域。有观点认为,分布式强化进修是深度强化进修走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化进修是一个综合的研究子领域,需

    2024年 2月 15日
  • 用什么tricks能让模型训练得更快?先了解下这个问题的第一性原理

    深度学习是门玄学?也不完全是。

    2022年 3月 22日
  • 详解AI加速器(一):2012年的AlexNet到底做对了什么?

    AI、机器进修、深度进修的概念可以追溯到几十年前,然而,它们在过去的十几年里才真正流行起来,这是为什么呢?AlexNet 的基本结构和之前的 CNN 架构也没有本质区别,为什么就能一鸣惊人?在这一系列文章中,前苹果、飞利浦、Mellanox(现属英伟达)工程师、普林斯顿大学博士 Adi Fuchs 尝试从 AI 加速器的角度为我们寻找这些问题的答案。当代世界正在经历一场革命,人类的体验从未与科技如此紧密地结合在一起。过去,科技公司通过观察用户行为、研究市场趋势,在一个通常必要数月甚至数年时候的周期中优化产品线来改进

    2022年 1月 13日
  • 一块V100运转上千个智能体、数千个情况,这个「曲率引擎」框架实行RL百倍提速

    在加强进修研究中,一个实验就要跑数天或数周,有没有更快的方法?近日,来自 SalesForce 的研究者提出了一种名为 WarpDrive(曲率引擎)的开源框架,它可以在一个 V100 GPU 上并行运转、训练数千个加强进修情况和上千个智能体。实验结果表明,与 CPU+GPU 的 RL 实行相比,WarpDrive 靠一个 GPU 实行的 RL 要快几个数量级。

    2021年 9月 12日
  • TensorFlow 2.4来了:上线对分布式训练和混合精度的新功能反对

    今天,谷歌正式发布了 TensorFlow 2.4,带来了多项新特性和功能改进。

    2020年 12月 15日