向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

这是一篇关于 LPU 的简单科普。在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 处置器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,老本却降低到十分之一。在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型

这是一篇关于 LPU 的简单科普。

在如今的人工智能领域,「GPU is All You Need」已经逐渐成为共识。没有充足的 GPU,连 OpenAI 都不能轻易升级 ChatGPT。

不过最近,GPU 的地位也在经受挑衅:一家名为 Groq 的初创公司开发出了一种新的 AI 处置器 ——LPU(Language Processing Unit),其推理速率相较于英伟达 GPU 提高了 10 倍,老本却降低到十分之一。

在一项展示中,LPU 以每秒超过 100 个词组的惊人速率执行了开源的大型谈话模型 —— 拥有 700 亿个参数的 Llama-2。下图展示了它的速率,可以看到,人眼的阅读速率根本跟不上 LPU 上模型的天生速率:

向英伟达发起挑衅的Groq是什么来头?简单科普新型AI芯片LPU

此外,它还在 Mixtral 中展示了自己的实力,实现了每个用户每秒近 500 个 token。

这一突破凸显了计算模式的潜在转变,即在处置基于谈话的使命时,LPU 可以提供一种专业化、更高效的替代方案,挑衅传统上占主导地位的 GPU。

不过,原阿里技能副总裁、Lepton AI 创始人贾扬清发文分析称,Groq 的实际部署老本可能远高于预期。因为 Groq 的内存容量较小,运行同一模型(LLaMA 70B)最少需要 305 张 Groq 卡(实际需要 572 张),而使用英伟达的 H100 只需 8 张卡。从目前的价格来看,Groq 的硬件老本是 H100 的 40 倍,能耗老本是 10 倍。如果运行三年的话,Groq 的硬件采购老本是 1144 万美元,运营老本是 76.2 万美元或更高。8 卡 H100 的硬件采购老本是 30 万美元,运营老本是 7.2 万美元或略低。因此,虽然 Groq 的性能出色,但老本和能耗方面仍有待改进。

图片

此外,Groq 的 LPU 不够通用也是一大弱点,这使得它短期内很难撼动英伟达 GPU 的地位。

图片

下文将介绍与 LPU 有关的一系列知识。

LPU 是什么?

究竟什么是 LPU?它的运作机制是怎样的?Groq 这家公司是什么来头?

根据 Groq 官网介绍,LPU 是「language processing units(谈话处置单元)」的缩写。它是「一种新型端到端处置单元系统,可为人工智能谈话使用等具有序列成分的计算密集型使用提供最快的推理」。

图片

还记得 2016 年 AlphaGo 击败世界冠军李世石的那场历史性围棋比赛吗?有趣的是,在他们对决的一个月前,AlphaGo 输掉了一场练习赛。在此之后,DeepMind 团队将 AlphaGo 转移到 TPU 上,大大提高了它的性能,从而以较大优势取得了胜利。

这一刻显示了处置能力在充分释放复杂计算潜能方面的关键作用。这激励了最初在谷歌领导 TPU 项目的 Jonathan Ross,他于 2016 年成立了 Groq 公司,并由此开发出了 LPU。LPU 经过独特计划,可迅速处置基于谈话的操作。与同时处置多项使命(并行处置)的传统芯片不同,LPU 是按顺序处置使命(序列处置),因此在谈话理解和天生方面非常有效。

图片

打个比方,在接力赛中,每个参赛者(芯片)都将接力棒(数据)交给下一个人,从而大大加快了比赛进程。LPU 的具体目标是解决大型谈话模型 (LLM) 在计算密度和内存带宽方面的双重挑衅。

Groq 从一开始就采取了创新战略,将软件和编译器的创新放在硬件开发之前。这种方法确保了编程能够引导芯片间的通信,促进它们协调高效地运行,就像生产线上运转良好的机器一样。

因此,LPU 在快速高效地管理谈话使命方面表现出色,非常适合需要文本解释或天生的使用。这一突破使系统不仅在速率上超越了传统配置,而且在老本效益和降低能耗方面也更胜一筹。这种进步对金融、政府和技能等行业具有重要意义,因为在这些行业中,快速和精确的数据处置至关重要。

LPU 溯源

如果想要深入了解 LPU 的架构,可以去读 Groq 发表的两篇论文。

第一篇是 2020 年的《Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》。在这篇论文中,Groq 介绍了一种名为 TSP 的架构,这是一种功能分片微架构,其内存单元与向量和矩阵深度学习功能单元交错排列,以利用深度学习运算的数据流局部性。

图片

论文链接:https://wow.groq.com/wp-content/uploads/2020/06/ISCA-TSP.pdf

第二篇是 2022 年的《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》。在这篇论文中,Groq 介绍了用于 TSP 元件大规模互连网络的新型商用软件定义方法。系统架构包括 TSP 互连网络的打包、路由和流量控制。

图片

论文链接:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf

在 Groq 的词典中,「LPU」似乎是一个较新的术语,因为在这两篇论文中都没有出现。

不过,现在还不是抛弃 GPU 的时候。因为尽管 LPU 擅长推理使命,能毫不费力地将训练好的模型使用到新数据中,但 GPU 在模型训练阶段仍占据主导地位。LPU 和 GPU 之间的协同作用可在人工智能硬件领域形成强大的合作伙伴关系,二者都能在其特定领域发挥专长和领先地位。

LPU vs GPU

让我们比较一下 LPU 和 GPU,以便更清楚地了解它们各自的优势和局限性。

用途广泛的 GPU

图形处置单元(GPU)已经超越了其最初用于渲染视频游戏图形的计划目的,成为人工智能和机器学习工作的关键要素。它们的架构是并行处置能力的灯塔,可同时执行数千个使命。

这一特性对那些需要并行化的算法尤为有利,可有效加速从复杂模拟到深度学习模型训练的各种使命。

GPU 的多功能性是另一个值得称道的特点;它能熟练处置各种使命,不仅限于人工智能,还包括游戏和视频渲染。它的并行处置能力大大加快了 ML 模型的训练和推理阶段,显示出显著的速率优势。

然而,GPU 并非没有局限性。它的高性能是以大量能耗为代价的,这给能效带来了挑衅。此外,GPU 的通用计划虽然灵活,但并不总能为特定的人工智能使命提供最高效率,这也暗示了其在专业使用中潜在的低效问题。

擅长谈话处置的 LPU

谈话处置单元(LPU)代表了 AI 处置器技能的最前沿,其计划理念深深植根于自然谈话处置(NLP)使命。与 GPU 不同,LPU 针对序列处置进行了优化,这是准确理解和天生人类谈话的必要条件。这种专业化赋予了 LPU 在 NLP 使用中的卓越性能,使其在翻译和内容天生等使命中超越了通用处置器。LPU 处置谈话模型的效率非常突出,有可能减少 NLP 使命的时间和能源消耗。

然而,LPU 的专业化是一把双刃剑。虽然它们在谈话处置方面表现出色,但其使用范围较窄。这限制了它们在更广泛的 AI 使命范围内的通用性。此外,作为新兴技能,LPU 还没有得到社区的广泛支持,可用性也面临挑衅。不过,随着时间的推移和该技能逐步被采用,这些差距可能在未来得到弥补。

图片

Groq LPU 会改变人工智能推理的未来吗?

围绕 LPU 与 GPU 的争论越来越多。去年年底,Groq 公司的公关团队称其为人工智能发展的关键参与者,这引起了人们的兴趣。

今年,人们重新燃起了兴趣,希望了解这家公司是否代表了人工智能炒作周期中的又一个转瞬即逝的时刻 —— 宣传似乎推动了认知度的提高,但它的 LPU 是否真正标志着人工智能推理迈出了革命性的一步?人们还对该公司相对较小的团队的经验提出了疑问,尤其是在科技硬件领域获得巨大认可之后。

一个关键时刻到来了,社交媒体上的一篇帖子大大提高了人们对该公司的兴趣,在短短一天内就有数千人询问如何使用其技能。公司创始人在一次视频通话中分享了这些细节,强调了热烈的反响以及他们目前由于没有计费系统而免费提供技能的做法。

图片

公司创始人对硅谷的创业生态系统并不陌生。自 2016 年公司成立以来,他一直是公司技能潜力的倡导者。此前,他曾在另一家大型科技公司参与开发一项关键的计算技能,这为他创办这家新企业奠定了基础。这段经历对公司形成独特的硬件开发方法至关重要,公司从一开始就注重用户体验,在进入芯片的物理计划之前,公司最初主要致力于软件工具的开发。

随着业界继续评估此类创新的影响,LPU 重新定义人工智能使用中的计算方法的潜力仍然是一个引人注目的讨论点,预示着人工智能技能将迎来变革性的未来。

原文链接:https://dataconomy.com/2024/02/26/groq-sparks-lpu-vs-gpu-face-off/?utm_content=283765034&utm_medium=social&utm_source=twitter&hss_channel=tw-842860575289819136

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/xiang-ying-wei-da-fa-qi-tiao-xin-de-groq-shi-shen-me-lai/

(0)
上一篇 2024年 3月 1日 上午11:54
下一篇 2024年 3月 8日 下午6:59

相关推荐

  • 只有170字节,最小的64位Hello World步伐这样写成

    最简单的 C 语言 Hello World 步伐,底层到底发生了什么?如何编写出最小的 64 位 Hello World 步伐?

    2020年 12月 25日
  • 5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语 言模型

    在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」。

    2021年 10月 12日
  • 小鹏P5上海车展正式开启预订,载人飞行器同台亮相

    2021年4月19日,小鹏汽车携旗下第三款产品,全球首款搭载激光雷达的量产智能汽车——小鹏P5亮相2021上海车展,并举办以“天生智能 探究不止”为主题的新闻发布会。小鹏汽车董事长 CEO何小鹏与所有到场嘉宾一起分享如何让智能汽车更好地改变我们的出行生活,并宣布小鹏P5正式开启预订。2021上海车展小鹏汽车展台汽车董事长 CEO何小鹏在发布会现场,何小鹏表示:“我们始终在探究未来智能出行的可能性,无论是小鹏P5,还是旅航者X1,都是我们阶段性思考出来的产品

    2021年 4月 22日
  • 从算法到开发,字节跳动Leader们最中意的40项进修资源

    “春季招聘和金三银四要开始了,我想提升技巧,更上一层楼,除了投简历刷题,还有什么可以努力的方向啊?”如果你是技巧领域的新人,或者已经毕业多年、正在考虑转向新的技巧方向,上面这个问题可能正在困扰着你。为了回答这个问题,技巧范儿找到了多媒体、引荐算法、计算机视觉、强化进修、机器翻译、常识图谱、安卓、iOS、服务端、前端等几个方向的Leader,引荐了各个技巧方向的自学资源。其中,有不少业界知名的书籍、全球CS名校的公开课程,可以系统性地帮你了解一个领域的全貌。还有不少应用技巧和开源项目,工业界的常备工具都列齐了。另外,

    2021年 2月 26日
  • 争取盟友、洞察人心,最新的Meta智能体是个谈判高手

    AI 学会了「揣度人心」,这本来是世界上最难的事情之一。

    2022年 11月 23日
  • 降低门槛,全平台运用,昇腾还会手把手地教你如何用AI

    机械之心报道作者:泽南如何才能做到 AI 运用一次开发,全场景布署?昇腾给出了答案。如今的大多数 AI 运用程序都必要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等对象,可以让开发者实现「统一端边云,全端自动布署」,开启了机械进修开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与

    2021年 3月 19日
  • 2021 Facebook 博士奖研金名单出炉:13位华人学者获选

    今年,Facebook 从来自全球百余所大学的 2163 份申请中选出了 26 位奖研金获得者,华人博士生占据半数。当地时间 4 月 22 日,Facebook 公布了 2021 年博士生奖研金(2021 PhD Fellowship)获得者的名单,共有 26 位博士生获奖,其中华人博士生占据半数,多达 13 位。Facebook 奖研金计划主要面向计算机科学与工程领域的重要主题,包括计算机视觉、编程语言等。获奖者将获得为期两个学年的学费,并获得 42000 美元的津贴,其中包括会议旅行等支持。此外,获奖者还将受邀

    2021年 4月 24日
  • 著名统计学家David Cox去世:他提出的「COX返回模型」曾影响一代人

    他提出的「COX 返回模型」曾深刻地影响了统计学研究。昨晚,英国著名统计学家 David Cox 去世,享年 97 岁。David Cox 因提出「COX 返回模型」而广为人知,并深刻地影响了统计学规模的研究。许多人自发地在社交媒体平台表达了悲痛和哀悼:David Cox 生平David Cox1924 年出生于英国伯明翰,在剑桥大学圣约翰学院学习数学,并在 Henry Daniels 和 Bernard Welch 的指导下于 1949 年在利兹大学获取博士学位。1950 年到 1956 年期间,David Co

    2022年 1月 20日
  • 中科院图协作进修模型,从空间分辨转录组学数据中阐明肿瘤异质性

    编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使钻研职员可以或许获得对构造结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特点的计算开发严重阻碍了构造异质性的阐明。在这里,中国科学院的钻研团队提出了 stMVC,这是一种多视图图协作进修模型,它在通过注意力分析 SRT 数据时集成了构造学、基因表白、空间地位和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别进修构造学相似性图或空间地位图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st

    2022年 10月 14日
  • 2021入坑呆板进修,有这份指南就够了

    这是一份适用于小白的呆板进修超丰富资本指南。呆板进修社区社交媒体上经常有人提出这样的问题:我如何开始呆板进修?我如何收费进修?什么是人工智能?我怎样才能学会它?人工智能是如何工作的?我该从何学起?如果我没有开发人员背景,该如何开始?……面对这些问题,油管博主 What's AI——Louis Bouchard 撰写了一份关于「如何在 2021 年零基础开始呆板进修」的完整指南,整合了大量进修资本,而且大部分是收费的。项目地点:https://github.com/louisf

    2021年 9月 22日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注