https://github.com/2U1/Qwen-VL-Series-Finetune/blob/master/README.md#finetune-with-lora
| 인자 | 설명 |
|---|---|
--deepspeed |
DeepSpeed 설정 파일 경로 (기본값: scripts/zero2.json) |
--data_path |
LLaVA 포맷 학습 데이터(JSON 파일) 경로 (필수) |
--image_folder |
학습 데이터에서 참조하는 이미지 폴더 경로 (필수) |
--model_id |
Qwen2-VL 모델 경로 (필수) |
--output_dir |
모델 체크포인트 저장 경로 |
| 인자 | 설명 |
|---|---|
--use_liger |
메모리 절약을 위해 Liger 커널 사용 여부 |
--num_train_epochs |
학습 에폭 수 (기본값: 1) |
--per_device_train_batch_size |
GPU당 forward step별 학습 배치 크기 |
--gradient_accumulation_steps |
그래디언트 누적 스텝 수 (기본값: 4) |
| 인자 | 설명 |
|---|---|
--freeze_vision_tower |
vision_model(비전 인코더) 동결 여부 (기본값: False) |
--freeze_llm |
LLM(언어모델) 동결 여부 (기본값: False) |
--freeze_merger |
projector(merger) 학습 여부 (기본값: False) |
--unfreeze_topk_llm |
언어모델에서 동결 해제할 상위 레이어 개수 |
--unfreeze_topk_vision |
비전모델에서 동결 해제할 상위 레이어 개수 |
| 인자 | 설명 |
|---|---|
--vision_lr |
vision_model용 학습률 |
--merger_lr |
merger(projector)용 학습률 |
--learning_rate |
언어 모듈용 학습률 |
| 인자 | 설명 |
|---|---|
--bf16 |
bfloat16 사용 여부 |
--fp16 |
fp16 사용 여부 |
--bits |
양자화 비트 수 (기본값: 16) |
| 인자 | 설명 |
|---|---|
--image_min_pixels |
이미지의 최소 입력 토큰 수 |
--image_max_pixles |
이미지의 최대 입력 토큰 수 |
--video_min_pixels |
영상의 최소 입력 토큰 수 |
--video_max_pixles |
영상의 최대 입력 토큰 수 |
--image_resized_width |
입력 이미지의 리사이즈 너비 설정 |
--image_resized_height |
입력 이미지의 리사이즈 높이 설정 |
--video_resized_width |
입력 영상의 리사이즈 너비 설정 |
--video_resized_height |
입력 영상의 리사이즈 높이 설정 |
--fps |
영상 데이터의 초당 프레임 수 |
--nframes |
영상 데이터의 프레임 개수 |
| 인자 | 설명 |
|---|---|
--enable_reasoning |
Qwen3-VL-Thinking, Qwen3.5 등 지원 모델에서 구조화된 추론 필드 활성화. Qwen3.5는 추론/비추론 샘플을 섞어 쓸 수 있고, Qwen3-VL-Thinking은 모든 샘플에 reasoning 필드가 비어있지 않아야 함. DPO의 경우 각 샘플에 chosen_reasoning과 rejected_reasoning을 둘 다 제공하거나 둘 다 제공하지 않아야 함 |
| 인자 | 설명 |
|---|---|
--num_lora_modules |
LoRA를 추가할 타겟 모듈 개수 (-1이면 전체 레이어) |
--lora_enable |
LoRA 사용 여부 |
--vision_lora |
LoRA 모듈에 vision_tower 포함 여부. 사용하려면 lora_enable이 True여야 함 |
--use_dora |
LoRA 대신 DoRA 사용 여부. 사용하려면 lora_enable이 True여야 함 |
--lora_namespan_exclude |
LoRA를 추가하지 않을 모듈의 namespan을 지정해 제외 |
--lora_rank |
LoRA 랭크 (기본값: 128) |
--lora_alpha |
LoRA 알파 값 (기본값: 256) |
--lora_dropout |
LoRA 드롭아웃 비율 (기본값: 0.05) |