可以不进行 merge lora权重而多次进行SFT训练过程吗 #6561

Maydaytyh · 2025-01-08T07:54:14Z

Maydaytyh
Jan 8, 2025

Reminder

I have read the README and searched the existing issues.

System Info

llamafactory version: 0.9.2.dev0
Platform: Linux-5.15.0-105-generic-x86_64-with-glibc2.31
Python version: 3.11.11
PyTorch version: 2.5.1+cu124 (GPU)
Transformers version: 4.46.1
Datasets version: 3.1.0
Accelerate version: 1.0.1
PEFT version: 0.12.0
TRL version: 0.9.6
GPU type: NVIDIA RTX A6000
vLLM version: 0.6.6.post1

Reproduction

如题，请问如何进行迭代的多轮SFT训练呢？假设第一轮训练后的lora权重目录为saved_models_1，则进行第二轮训练时，adapter_name_or_path设为 saved_models_1应该可以实现，那后续的第三轮应该如何设置呢？
以及，第二轮训练结束后，能否不进行合并，而基于两轮 SFT 的lora权重直接使用 scripts/vllm_infer.py 脚本进行推理？

提出这个issue的主要原因是：
经过一轮训练，合并lora权重后，再进行第二轮训练，随后使用llamafactory-cli train进行推理和scripts/vllm_infer.py 脚本进行推理的效果相差过大
附上脚本以及yaml配置文件

 CUDA_VISIBLE_DEVICES=4,5,6,7 python scripts/vllm_infer.py --model_name_or_path merged_models  --adapter_name_or_path  saved_models_2 --dataset dataset --template llama2

### model
model_name_or_path: merged_models
predict_with_generate: true
adapter_name_or_path: saved_models_2
### method
stage: sft
do_predict: true
finetuning_type: lora
lora_target: q_proj,v_proj

### dataset
template: llama2
eval_dataset: dataset
overwrite_cache: true
preprocessing_num_workers: 16

### output
output_dir: outputdirs
logging_steps: 10
save_steps: 1000
plot_loss: true
overwrite_output_dir: true

### train
per_device_train_batch_size: 4
gradient_accumulation_steps: 4
learning_rate: 5.0e-5
num_train_epochs: 50.0
lr_scheduler_type: cosine
warmup_ratio: 0.0
ddp_timeout: 180000000
fp16: true

Others

No response

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

可以不进行 merge lora权重而多次进行SFT训练过程吗 #6561

{{title}}

Replies: 0 comments

Select a reply

可以不进行 merge lora权重而多次进行SFT训练过程吗 #6561

Maydaytyh Jan 8, 2025

Reminder

System Info

Reproduction

Others

Replies: 0 comments

Maydaytyh
Jan 8, 2025