AI在线 AI在线

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。IT之家将官方简介翻译如下:大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数

在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

IT之家将官方简介翻译如下:

大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。

OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

我们还发布了将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。

参考资料:

《[2404.14619] OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework》

相关资讯

苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。不过,苹果最新放出的论文,我们看到其在开源领域做出的贡献。近日,苹果发布了 OpenELM,共四种变体(参数量分别为 270M、450M、1.1B 和 3B),这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放,即 OpenELM 中的每个 Transformer 层都有不
4/25/2024 11:45:00 AM
机器之心

苹果OpenAI合作,力争今年生成式AI登陆iPhone

ChatGPT,Gemini,Claude 三种大模型持证竞聘。OpenAI,Google,Anthropic 齐聚 Apple 下一代操作系统,WWDC24 上,iOS 的这块蛋糕究竟花落谁家?苹果在各国市场的 AI 领域,一直在业内寻求可靠并值得信赖的合作伙伴,以助于将各类生成式 AI 技术应用于 iPhone。例如:在中国市场,据 WSJ 报道:苹果近日宣布,为国行版 iPhone 16 系列、即将发布的 IOS18 操作系统、及 MAC 系统提供先进的 AI 功能,将与中国领先的 AI 公司百度达成战略合作
4/28/2024 10:49:00 AM
机器之心

阿里通义Qwen3语言模型上线 ,开源实力再升级!

在全球人工智能领域,Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。 今日,通义宣布将 Qwen3开源,带来了令人振奋的技术革新。 此次发布的旗舰模型 Qwen3-235B-A22B 以其2350亿个参数的规模在多个基准测试中展现出强大的竞争力,超越了 DeepSeek-R1、o1、o3-mini、Grok-3及 Gemini-2.5-Pro 等顶级模型。
5/6/2025 6:00:51 PM
AI在线
  • 1