Training arguments

https://github.com/2U1/Qwen-VL-Series-Finetune/blob/master/README.md#finetune-with-lora

기본 경로 / 필수값

인자 설명
--deepspeed DeepSpeed 설정 파일 경로 (기본값: scripts/zero2.json)
--data_path LLaVA 포맷 학습 데이터(JSON 파일) 경로 (필수)
--image_folder 학습 데이터에서 참조하는 이미지 폴더 경로 (필수)
--model_id Qwen2-VL 모델 경로 (필수)
--output_dir 모델 체크포인트 저장 경로

학습 기본 설정

인자 설명
--use_liger 메모리 절약을 위해 Liger 커널 사용 여부
--num_train_epochs 학습 에폭 수 (기본값: 1)
--per_device_train_batch_size GPU당 forward step별 학습 배치 크기
--gradient_accumulation_steps 그래디언트 누적 스텝 수 (기본값: 4)

동결(Freeze) 설정

인자 설명
--freeze_vision_tower vision_model(비전 인코더) 동결 여부 (기본값: False)
--freeze_llm LLM(언어모델) 동결 여부 (기본값: False)
--freeze_merger projector(merger) 학습 여부 (기본값: False)
--unfreeze_topk_llm 언어모델에서 동결 해제할 상위 레이어 개수
--unfreeze_topk_vision 비전모델에서 동결 해제할 상위 레이어 개수

학습률 (Learning Rate)

인자 설명
--vision_lr vision_model용 학습률
--merger_lr merger(projector)용 학습률
--learning_rate 언어 모듈용 학습률

정밀도 (Precision)

인자 설명
--bf16 bfloat16 사용 여부
--fp16 fp16 사용 여부
--bits 양자화 비트 수 (기본값: 16)

이미지/영상 입력 설정

인자 설명
--image_min_pixels 이미지의 최소 입력 토큰 수
--image_max_pixles 이미지의 최대 입력 토큰 수
--video_min_pixels 영상의 최소 입력 토큰 수
--video_max_pixles 영상의 최대 입력 토큰 수
--image_resized_width 입력 이미지의 리사이즈 너비 설정
--image_resized_height 입력 이미지의 리사이즈 높이 설정
--video_resized_width 입력 영상의 리사이즈 너비 설정
--video_resized_height 입력 영상의 리사이즈 높이 설정
--fps 영상 데이터의 초당 프레임 수
--nframes 영상 데이터의 프레임 개수

추론(Reasoning) 모드

인자 설명
--enable_reasoning Qwen3-VL-Thinking, Qwen3.5 등 지원 모델에서 구조화된 추론 필드 활성화. Qwen3.5는 추론/비추론 샘플을 섞어 쓸 수 있고, Qwen3-VL-Thinking은 모든 샘플에 reasoning 필드가 비어있지 않아야 함. DPO의 경우 각 샘플에 chosen_reasoningrejected_reasoning을 둘 다 제공하거나 둘 다 제공하지 않아야 함

LoRA 관련

인자 설명
--num_lora_modules LoRA를 추가할 타겟 모듈 개수 (-1이면 전체 레이어)
--lora_enable LoRA 사용 여부
--vision_lora LoRA 모듈에 vision_tower 포함 여부. 사용하려면 lora_enable이 True여야 함
--use_dora LoRA 대신 DoRA 사용 여부. 사용하려면 lora_enable이 True여야 함
--lora_namespan_exclude LoRA를 추가하지 않을 모듈의 namespan을 지정해 제외
--lora_rank LoRA 랭크 (기본값: 128)
--lora_alpha LoRA 알파 값 (기본값: 256)
--lora_dropout LoRA 드롭아웃 비율 (기본값: 0.05)

기타