0.0000

  • 大模型时代还不理解自注意力?这篇文章教你从头写代码实现

    自注意力是 LLM 的一大核心组件。对大模型及相关应用开发者来说,理解自注意力非常重要。近日,Ahead of AI 杂志运营者、机器学习和 AI 研究者 Sebastian Raschka 发布了一篇文章,介绍并用代码从头实现了 LLM 中的自注意力、多头注意力、交叉注意力和因果注意力。太长不看版这篇文章将介绍 Transformer 架构以及 GPT-4 和 Llama 等大型语言模型(LLM)中利用的自注意力体制。自注意力等相关体制是 LLM 的核心组件,因此如果想要理解 LLM,就需要理解它们。不仅如此,这

    2024年 2月 16日
  • 手把手教你,从零开始实现一个稀少混合大师架构语言模型(MoE)

    本文介绍了实现一个稀少混合大师语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀少混合大师取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合大师模型 Mixtral 发布后,混合大师模型(MoE)越来越受到人们的关注。在稀少化的混合专

    2024年 2月 16日