AI在线 AI在线

Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍

Cerebras Systems 今日宣布推出 Cerebras Inference,官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token,为 Llama 3.1 70B 提供每秒 450 个 token,速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。除了令人难以置信的性能之外,这款新型推理解决方案的定价也比流行的 GPU 云低得多,起价仅为每百万个 token 10 美分,从而为 AI 工作负载

Cerebras Systems 今日宣布推出 Cerebras Inference,官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token,为 Llama 3.1 70B 提供每秒 450 个 token,速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。

Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍

Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍

除了令人难以置信的性能之外,这款新型推理解决方案的定价也比流行的 GPU 云低得多,起价仅为每百万个 token 10 美分,从而为 AI 工作负载提供 100 倍更高的性价比。

该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序,而不会影响速度或成本。该方案使用了 Cerebras CS-3 系统及其 Wafer Scale Engine 3(WSE-3)AI 处理器,其中 CS-3 的内存带宽是 Nvidia H100 的 7000 倍,解决了生成式 AI 的内存带宽技术挑战。

Cerebras 推出全球最快 AI 推理解决方案,速度是英伟达方案的 20 倍

据AI在线了解,Cerebras Inference 提供以下三个层级:

免费层为登录的任何人提供免费的 API 访问和慷慨的使用限制。

开发者层专为灵活的无服务器部署而设计,为用户提供一个 API 端点,其成本只是市场上替代方案的一小部分,Llama 3.1 8B 和 70B 模型的定价分别为每百万 token 10 美分和 60 美分。

企业层提供微调模型、定制服务级别协议和专门支持。企业可以通过 Cerebras 管理的私有云或客户场所访问 Cerebras Inference,非常适合持续的工作负载。

Cerebras 团队称:“凭借创纪录的性能、业界领先的定价和开放的 API 访问,Cerebras Inference 为开放的 LLM 开发和部署设定了新标准。作为唯一能够同时提供高速训练和推理的解决方案,Cerebras 为 AI 开辟了全新的可能性。”

AI 领域正在迅速发展,虽然英伟达目前在 AI 市场占据主导地位,但 Cerebras 和 Groq 等公司的出现预示着行业动态可能发生变化。随着对更快、更具成本效益的 AI 推理解决方案需求的不断增加,这些挑战者在颠覆英伟达的霸主地位,尤其是在推理领域方面。

相关资讯

执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路

在根据某个奖励微调生成式语言模型时,使用 KL 正则化的强化学习(KL-RL)来对齐生成式语言模型是一种常用框架。 而 KL-RL 通常需要训练一个奖励模型,然后使用一个强化学习求解器。 其它方法还包括直接偏好优化、奖励模型蒸馏、best-of-N  蒸馏的不同变体版本。
1/27/2025 8:27:00 PM
机器之心

Cerebras 推出第三代晶圆级芯片 WSE-3:台积电 5nm 制程,性能翻倍

晶圆级芯片创新企业 Cerebras 推出了其第三代芯片 WSE-3,宣称以相同功耗相较上代产品 WSE-2 性能翻倍。IT之家整理 WSE-3 参数如下:台积电 5nm 制程;4 万亿个晶体管;900000 个 AI 核心;44GB 片上 SRAM 缓存;可选 1.5TB / 12TB / 1.2PB 三种片外内存容量;125 PFLOPS 的峰值 AI 算力。Cerebras 宣称基于 WSE-3 的 CS-3 系统凭借其至高 1.2PB 的内存容量,可训练比 GPT-4 和 Gemini 大 10 倍的下一代
3/14/2024 9:37:30 AM
溯波(实习)

4 万亿晶体管 5nm 制程,全球最快 AI 芯片 WSE-3 碾压 H100:单机可训 24 万亿参数 LLM,Llama 70B 一天搞定

【新智元导读】AI 世界的进化快得有点跟不上了。刚刚,全球最强最大 AI 芯片 WSE-3 发布,4 万亿晶体管 5nm 工艺制程。更厉害的是,WSE-3 打造的单个超算可训出 24 万亿参数模型,相当于 GPT-4 / Gemini 的十倍大。全球最快、最强的 AI 芯片面世,让整个行业瞬间惊掉了下巴!AI 芯片初创公司 Cerebras 重磅发布了「第三代晶圆级引擎」(WSE-3)。性能上,WSE-3 是上一代 WSE-2 的两倍,且功耗依旧保持不变。90 万个 AI 核心,44GB 的片上 SRAM 存储,让
3/14/2024 9:49:39 PM
清源