LoRA는 저랭크 행렬로 가중치 업데이트를 근사한다

요약

LoRA(Low-Rank Adaptation)는 사전학습된 모델의 가중치를 직접 수정하지 않고, 저랭크(low-rank) 행렬 분해를 통해 가중치 변화량을 효율적으로 학습하는 fine-tuning 기법이다.

기존 가중치 $W_0$ 를 고정하고, 업데이트 $\Delta W$ 를 두 개의 작은 행렬 $A$ 와 $B$ 의 곱으로 표현한다:

$h = W_0 x + \Delta W x = W_0 x + BA x$

여기서:

$W_0 \in \mathbb{R}^{d \times k}$ : 원본 가중치 (frozen)
$B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ : 학습 가능한 저랭크 행렬
$r \ll \min(d, k)$ : 랭크 (보통 4, 8, 16 등 작은 값)

예를 들어 $d = k = 4096$ 이고 $r = 8$ 인 경우: