AI在线 AI在线

2600 tokens / s:Meta 发布 Llama API,携手 Cerebras 打造最快 AI 推理解决方案

Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型,提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

在首届 LlamaCon 大会上,Meta 公司在推出独立 AI 应用之外,还发布了 Llama API,目前以免费预览形式向开发者开放。

AI在线援引博文,Llama API 支持开发者测试包括 Llama 4 Scout 和 Llama 4 Maverick 在内的最新模型,提供一键 API 密钥创建以及轻量级的 TypeScript 和 Python SDK。

开发者可通过一键创建 API 密钥,快速上手使用,同时 API 还提供轻量级的 TypeScript 和 Python SDK。为了方便开发者从 OpenAI 平台迁移应用,Llama API 完全兼容 OpenAI SDK。

Meta Llama API

Meta 还联手 Cerebras 和 Groq,进一步优化 Llama API 的性能。Cerebras 宣称,其 Llama 4 Cerebras 模型的 tokens 生成速度高达 2600 tokens / s,比 NVIDIA 等传统 GPU 解决方案快 18 倍。

根据 Artificial Analysis 基准测试数据,这一速度远超 ChatGPT 的 130 tokens / s 和 DeepSeek 的 25 tokens / s。

Cerebras CEO 兼联合创始人 Andrew Feldman 表示:“我们很自豪能让 Llama API 成为全球最快的推理 API。开发者在构建实时应用时需要极致速度,Cerebras 的加入让 AI 系统性能达到 GPU 云无法企及的高度。”

此外,Groq 提供的 Llama 4 Scout 模型速度为 460 tokens / s,虽不及 Cerebras,但仍比其他 GPU 方案快 4 倍。在 Groq 上,Llama 4 Scout 每百万 tokens 输入费用为 0.11 美元,每百万 tokens 输出费用为 0.34 美元;Llama 4 Maverick 每百万 tokens 输入费用为 0.50 美元,每百万 tokens 输出费用为 0.77 美元。

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta更新Ray-Ban智能眼镜隐私政策,AI摄像头功能默认开启,语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析,物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#
4/30/2025 11:24:30 PM
远洋

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择
4/19/2024 9:15:51 AM
故渊

Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

虽然向第三方开放了操作系统,但 Meta 将继续开发 Quest 头显设备。Meta 誓将开放进行到底。这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。至此,Meta 正式向实现元宇宙更开放的计算平台愿景迈出下一步。为实现该恢弘战略,Meta 同时在三方面不断发力,并竭力整合资源:向第三方硬件制造商开放 Meta Quest 设备的操作系统,为消费者
4/24/2024 11:14:00 AM
机器之心
  • 1