仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型从事微调。我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,利用者需要根据自己的数据对这些开源模型从事微调,才能

大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客,详细讲解了如何利用 Hugging Face 上的库和 fsdp 以及 Q-Lora 对大模型从事微调。

仅用250美元,Hugging Face技术主管手把手教你微调Llama 3

我们知道,Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。不过,大多数情况下,利用者需要根据自己的数据对这些开源模型从事微调,才能充分释放模型的潜力。虽然在单个 GPU 上利用 Q-Lora 对较小的大语言模型(如 Mistral)从事微调不是难事,但对像 Llama 3 70b 或 Mixtral 这样的大模型的高效微调直到现在仍是一个难题。因此,Hugging Face 技术主管 Philipp Schmid 介绍了如何利用 PyTorch FSDP 和 Q-Lora,并在 Hugging Face 的 TRL、Transformers、peft 和 datasets 等库的帮助下,对 Llama 3 从事微调。除了 FSDP,作家还对 PyTorch 2.2 更新后的 Flash Attention v2 也从事了适配。微调主要步骤如下:设置开发环境创建并加载数据集利用 PyTorch FSDP、Q-Lora 和 SDPA 微调大语言模型测试模型并从事推理注:本文从事的实验是在英伟达(NVIDIA)H100 和英伟达(NVIDIA)A10G GPU 上创建和验证的。配置文件和代码针对 4xA10G GPU 从事了优化,每个 GPU 均配备 24GB 内存。如果利用者有更多的算力,第 3 步提到的配置文件(yaml 文件)需要做相应的修改。FSDP+Q-Lora 背景知识基于一项由 Answer.AI、Q-Lora 创建者 Tim Dettmers 和 Hugging Face 共同参与的合作项目,作家对 Q-Lora 和 PyTorch FSDP(完全共享数据并行)所能提供的技术支持从事了总结。FSDP 和 Q-Lora 的结合利用能让利用者在 2 个消费级 GPU(24GB)上就能对 Llama 2 70b 或 Mixtral 8x7B 从事微调,细节可以参考下面文章。其中 Hugging Face 的 PEFT 库对此有至关重要的作用。文章地址:https://www.answer.ai/posts/2024-03-06-fsdp-qlora.htmlPyTorch FSDP 是一种数据 / 模型并行技术,它可以跨 GPU 分割模型,减少内存需求,并能够更有效地训练更大的模型。Q-LoRA 是一种微调方法,它利用量化和低秩适配器来有效地减少计算需求和内存占用。设置开发环境第一步是安装 Hugging Face Libraries 以及 Pyroch,包括 trl、transformers 和 datasets 等库。trl 是建立在 transformers 和 datasets 基础上的一个新库,能让对开源大语言模型从事微调、RLHF 和对齐变得更容易。# Install Pytorch for FSDP and FA/SDPA

%pip install "torch==2.2.2" tensorboard

# Install Hugging Face libraries

%pip install  –upgrade "transformers==4.40.0" "datasets==2.18.0" "accelerate==0.29.3" "evaluate==0.4.1" "bitsandbytes==0.43.1" "huggingface_hub==0.22.2" "trl==0.8.6" "peft==0.10.0"接下来,登录 Hugging Face 获取 Llama 3 70b 模型。创建和加载数据集环境设置完成后,我们就可以开始创建和准备数据集了。微调用的数据集应该包含利用者想要解决的任务的示例样本。阅读《如何在 2024 年利用 Hugging Face 微调 LLM》可以进一步了解如何创建数据集。文章地址:https://www.philschmid.de/fine-tune-llms-in-2024-with-trl#3-create-and-prepare-the-dataset作家利用了 HuggingFaceH4/no_robots 数据集,这是一个包含 10,000 条指令和样本的高质量数据集,并且经过了高质量的数据标注。这些数据可用于有监督微调(SFT),使语言模型更好地遵循人类指令。no_robots 数据集以 OpenAI 发表的 InstructGPT 论文中描述的人类指令数据集为原型,并且主要由单句指令组成。{"messages": [{"role": "system", "content": "You are…"}, {"role": "user", "content": "…"}, {"role": "assistant", "content": "…"}]}

{"messages": [{"role": "system", "content": "You are…"}, {"role": "user", "content": "…"}, {"role": "assistant", "content": "…"}]}

{"messages": [{"role": "system", "content": "You are…"}, {"role": "user", "content": "…"}, {"role": "assistant", "content": "…"}]}no_robots 数据集中的 10,000 个样本,被分为 9,500 个训练样本和 500 个测试样本,其中有些样本不包含 system 信息。作家利用 datasets 库加载数据集,添加了缺失的 system 信息,并将它们保存到单独的 json 文件中。示例代码如下所示:from datasets import load_dataset

# Convert dataset to OAI messages

system_message = """You are Llama, an AI assistant created by Philipp to be helpful and honest. Your knowledge spans a wide range of topics, allowing you to engage in substantive conversations and provide analysis on complex subjects."""

def create_conversation(sample):

if sample["messages"][0]["role"] == "system":

return sample
else:

sample["messages"] = [{"role": "system", "content": system_message}] + sample["messages"]

return sample

# Load dataset from the hub

dataset = load_dataset("HuggingFaceH4/no_robots")

# Add system message to each conversation

columns_to_remove = list(dataset["train"].features)

columns_to_remove.remove("messages")

dataset = dataset.map(create_conversation, remove_columns=columns_to_remove,batched=False)

# Filter out conversations which are corrupted with wrong turns, keep which have even number of turns after adding system message

dataset["train"] = dataset["train"].filter(lambda x: len(x["messages"][1:]) % 2 == 0)

dataset["test"] = dataset["test"].filter(lambda x: len(x["messages"][1:]) % 2 == 0)

# save datasets to disk

dataset["train"].to_json("train_dataset.json", orient="records", force_ascii=False)

dataset["test"].to_json("test_dataset.json", orient="records", force_ascii=False)利用 PyTorch FSDP、Q-Lora 和 SDPA 来微调 LLM接下来利用 PyTorch FSDP、Q-Lora 和 SDPA 对大语言模型从事微调。作家是在分布式设备中运行模型,因此需要利用 torchrun 和 python 脚本启动训练。作家编写了 run_fsdp_qlora.py 脚本,其作用是从磁盘加载数据集、初始化模型和分词器并开始模型训练。脚本利用 trl 库中的 SFTTrainer 来对模型从事微调。SFTTrainer 能够让对开源大语言模型的有监督微调更加容易上手,具体来说有以下几点:格式化的数据集,包括格式化的多轮会话和指令(已利用)只对完整的内容从事训练,忽略只有 prompts 的情况(未利用)打包数据集,提高训练效率(已利用)支持参数高效微调技术,包括 Q-LoRA(已利用)为会话级任务微调初始化模型和分词器(未利用,见下文)注意:作家利用的是类似于 Anthropic/Vicuna 的聊天模板,设置了「用户」和「助手」角色。这样做是因为基础 Llama 3 中的特殊分词器(<|begin_of_text|> 及 <|reserved_special_token_XX|>)没有经过训练。这意味着如果要在模板中利用这些分词器,还需要对它们从事训练,并更新嵌入层和 lm_head,对内存会产生额外的需求。如果利用者有更多的算力,可以修改 run_fsdp_qlora.py 脚本中的 LLAMA_3_CHAT_TEMPLATE 环境变量。在配置参数方面,作家利用了新的 TrlParser 变量,它允许我们在 yaml 文件中提供超参数,或者通过明确地将参数传递给 CLI 来覆盖配置文件中的参数,例如 —num_epochs 10。以下是在 4x A10G GPU 或 4x24GB GPU 上微调 Llama 3 70B 的配置文件。%%writefile llama_3_70b_fsdp_qlora.yaml
# script parameters

model_id: "meta-llama/Meta-Llama-3-70b" # Hugging Face model id

dataset_path: "." # path to dataset

max_seq_len: 3072 # 2048 # max sequence length for model and packing of the dataset

# training parameters

output_dir: "./llama-3-70b-hf-no-robot" # Temporary output directory for model checkpoints

report_to: "tensorboard" # report metrics to tensorboard

learning_rate: 0.0002 # learning rate 2e-4

lr_scheduler_type: "constant" # learning rate scheduler

num_train_epochs: 3 # number of training epochs

per_device_train_batch_size: 1 # batch size per device during training

per_device_eval_batch_size: 1 # batch size for evaluation

gradient_accumulation_steps: 2 # number of steps before performing a backward/update pass

optim: adamw_torch # use torch adamw optimizer

logging_steps: 10 # log every 10 steps

save_strategy: epoch # save checkpoint every epoch

evaluation_strategy: epoch # evaluate every epoch

max_grad_norm: 0.3 # max gradient norm

warmup_ratio: 0.03 # warmup ratio

bf16: true # use bfloat16 precision

tf32: true # use tf32 precision

gradient_checkpointing: true # use gradient checkpointing to save memory

# FSDP parameters: https://huggingface.co/docs/transformers/main/en/fsdp

fsdp: "full_shard auto_wrap offload" # remove offload if enough GPU memory

fsdp_config:

backward_prefetch: "backward_pre"

forward_prefetch: "false"

  use_orig_params: "false"注意:训练结束时,GPU 内存利用量会略有增加(约 10%),这是因为模型保存所带来的开销。所以利用时,请确保 GPU 上有足够的内存来保存模型。在启动模型训练阶段,作家利用 torchrun 来更加灵活地运用样本,并且易于被调整,就像 Amazon SageMaker 及 Google Cloud Vertex AI 一样。对于 torchrun 和 FSDP,作家需要对环境变量 ACCELERATE_USE_FSDP 和 FSDP_CPU_RAM_EFFICIENT_LOADING 从事设置,来告诉 transformers/accelerate 利用 FSDP 并以节省内存的方式加载模型。注意:如果想不利用 CPU offloading 功能,需要更改 fsdp 的设置。这种操作只适用于内存大于 40GB 的 GPU。本文利用以下命令启动训练:!ACCELERATE_USE_FSDP=1 FSDP_CPU_RAM_EFFICIENT_LOADING=1 torchrun –nproc_per_node=4 ./scripts/run_fsdp_qlora.py –config llama_3_70b_fsdp_qlora.yaml预期内存利用情况:利用 FSDP 从事全微调需要约 16 块 80GB 内存的 GPUFSDP+LoRA 需要约 8 块 80GB 内存的 GPUFSDP+Q-Lora 需要约 2 块 40GB 内存的 GPUFSDP+Q-Lora+CPU offloading 技术需要 4 块 24GB 内存的 GPU,以及一块具备 22 GB 内存的 GPU 和 127 GB 的 CPU RAM,序列长度为 3072、batch 大小为 1。在 g5.12xlarge 服务器上,基于包含 1 万个样本的数据集,作家利用 Flash Attention 对 Llama 3 70B 从事 3 个 epoch 的训练,总共需要 45 小时。每小时成本为 5.67 美元,总成本为 255.15 美元。这听起来很贵,但可以让你在较小的 GPU 资源上对 Llama 3 70B 从事微调。如果我们将训练扩展到 4x H100 GPU,训练时间将缩短至大约 125 小时。如果假设 1 台 H100 的成本为 5-10 美元 / 小时,那么总成本将在 25-50 美元之间。我们需要在易用性和性能之间做出权衡。如果能获得更多更好的计算资源,就能减少训练时间和成本,但即使只有少量资源,也能对 Llama 3 70B 从事微调。对于 4x A10G GPU 而言,需要将模型加载到 CPU 上,这就降低了总体 flops,因此成本和性能会有所不同。注意:在作家从事的评估和测试过程中,他注意到大约 40 个最大步长(将 80 个样本堆叠为长度为三千的序列)就足以获得初步结果。40 个步长的训练时间约为 1 小时,成本约合 5 美元。可选步骤:将 LoRA 的适配器融入原始模型利用 QLoRA 时,作家只训练适配器而不对整个模型做出修改。这意味着在训练过程中保存模型时,只保存适配器权重,而不保存完整模型。如果利用者想保存完整的模型,使其更容易与文本生成推理器一起利用,则可以利用 merge_and_unload 方法将适配器权重合并到模型权重中,然后利用 save_pretrained 方法保存模型。这将保存一个默认模型,可用于推理。注意:CPU 内存需要大于 192GB。#### COMMENT IN TO MERGE PEFT AND BASE MODEL ####

# from peft import AutoPeftModelForCausalLM

# # Load PEFT model on CPU

# model = AutoPeftModelForCausalLM.from_pretrained(

# args.output_dir,

# torch_dtype=torch.float16,

# low_cpu_mem_usage=True,

# )

# # Merge LoRA and base model and save

# merged_model = model.merge_and_unload()

# merged_model.save_pretrained(args.output_dir,safe_serialization=True, max_shard_size="2GB")
模型测试和推理训练完成后,我们要对模型从事评估和测试。作家从原始数据集中加载不同的样本,并手动评估模型。评估生成式人工智能模型并非易事,因为一个输入可能有多个正确的输出。阅读《评估 LLMs 和 RAG,一个利用 Langchain 和 Hugging Face 的实用案例》可以了解到关于评估生成模型的相关内容。文章地址:https://www.philschmid.de/evaluate-llmimport torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

peft_model_id = "./llama-3-70b-hf-no-robot"

# Load Model with PEFT adapter

model = AutoPeftModelForCausalLM.from_pretrained(

peft_model_id,

torch_dtype=torch.float16,

quantization_config= {"load_in_4bit": True},

device_map="auto"

)
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
接下来加载测试数据集,尝试生成指令。from datasets import load_dataset
from random import randint

# Load our test dataset

eval_dataset = load_dataset("json", data_files="test_dataset.json", split="train")

rand_idx = randint(0, len(eval_dataset))

messages = eval_dataset[rand_idx]["messages"][:2]

# Test on sample

input_ids = tokenizer.apply_chat_template(messages,add_generation_prompt=True,return_tensors="pt").to(model.device)

outputs = model.generate(

input_ids,

max_new_tokens=512,

eos_token_id= tokenizer.eos_token_id,

do_sample=True,

temperature=0.6,

top_p=0.9,

)

response = outputs[0][input_ids.shape[-1]:]

print(f"**Query:**\n{eval_dataset[rand_idx]['messages'][1]['content']}\n")

print(f"**Original Answer:**\n{eval_dataset[rand_idx]['messages'][2]['content']}\n")

print(f"**Generated Answer:**\n{tokenizer.decode(response,skip_special_tokens=True)}")

# **Query:**

# How long was the Revolutionary War?

# **Original Answer:**

# The American Revolutionary War lasted just over seven years. The war started on April 19, 1775, and ended on September 3, 1783.

# **Generated Answer:**

# The Revolutionary War, also known as the American Revolution, was an 18th-century war fought between the Kingdom of Great Britain and the Thirteen Colonies. The war lasted from 1775 to 1783.
至此,主要流程就介绍完了,心动不如行动,赶紧从第一步开始操作吧。原文链接:https://www.philschmid.de/fsdp-qlora-llama3?continueFlag=7e3b3f9059405e4318552e99bd128514

AI

ChatGPT们的幕后前驱,斯坦福老师Manning的四十年NLP生涯

2024-5-5 10:32:00

AI

网传Ilya Sutskever的推选清单火了,掌握当前AI 90%

2024-5-9 18:40:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索