Transformer에서 self attention 계산 과정

요약

self attention은 encoder안에서 단어 임베딩 사이의 관계를 계산하는 메커니즘
- 임베딩 사이의 관계: 서로를 얼마나 참조해야하는지 계산함
- attention score로 표현됨
핵심 개념은 Query, Key, Value

입력 문장을 단어로 쪼개고 임베딩으로 만들어서 임베딩 벡터 X로 만듦
X에 가중치 행렬 W_q, W_k, W_v를 곱해서 Q, K, V를 얻음
Q와 K 사이의 내적을 구함 => attention score 행렬
스코어 행렬의 행은 특정 단어 A와 나머지 단어들 사이의 관계를 수치적으로 보여줌
이제 score 행렬을 softmax를 통해 정규화(가중치화)하고 가중치 벡터와 V를 곱해 최종 표현을 만듦
- 한 단어 기준으로 문장 내 다른 단어들이 그 단어 표현을 만드는데 얼마나 기여하는지 알려줌