LoRA는 Transformer의 Attention 레이어에 주로 적용된다

요약

LoRA는 일반적으로 Transformer의 Self-Attention 레이어에 있는 Query, Key, Value, Output projection 행렬에 적용된다. 실험적으로 이 위치가 가장 효율적인 것으로 알려져 있다.

본문

적용 위치

Transformer 블록에서 LoRA를 적용할 수 있는 위치:

Attention 레이어 (권장)
- $W_q$ (Query projection)
- $W_k$ (Key projection)
- $W_v$ (Value projection)
- $W_o$ (Output projection)
FFN 레이어 (선택적)
- $W_{up}$ (Up projection)
- $W_{down}$ (Down projection)

일반적인 설정

# Hugging Face PEFT 라이브러리 예시
from peft import LoraConfig

config = LoraConfig(
    r=8,                        # 랭크
    lora_alpha=16,              # 스케일링 팩터
    target_modules=["q_proj", "v_proj"],  # 적용 모듈
    lora_dropout=0.1,
    bias="none",
)

적용 모듈 선택 가이드

모듈 조합	파라미터 수	성능
q, v	기준	좋음
q, k, v, o	2배	더 좋음
모든 linear	최대	가장 좋음

lora_alpha의 역할

실제 가중치 업데이트는 $\frac{\alpha}{r} \cdot BA$ 로 스케일링된다:

$\alpha = r$ : 스케일링 없음
$\alpha = 2r$ : 2배 스케일링 (일반적)

LoRA는 Transformer의 Attention 레이어에 주로 적용된다

요약

본문

적용 위치

일반적인 설정

적용 모듈 선택 가이드

lora_alpha의 역할

참고

이 문서를 참조하는 노트 (2)

함께 읽기 좋은 글