Zettelkasten

Encoder에서 self attention 계산시 Lower Triangular를 이용해 인과적 구조로 예측가능한 트랜스포머 구조를 만든다.

·수정 2026.04.23·수정 1

요약

  • 기본적으로 transformer는 입력 데이터의 양방향 self-attention을 계산해 현재 토큰의 표현을 만듦
  • 하지만 이런 방식은 정확도는 높지만 앞뒤 모든 입력을 다 모은 이후에 처리가 가능함 그리고 이런 방식은 스트리밍 처리방식에 불리함
  • 이를 해결하기 위해 lower triangular attention mask를 사용해서 현재 시점 이전의 토큰만 보도록 제한하면 순차적으로 입력을 처리할 수 있음
  • 그 뿐만아니라 인과적 attention 구조로 인해, 이전 블록에서 계산한 kv를 그대로 사용가능함(이해 못함)

본문

  • lower triangular attention mask는 오른쪽 위의 값이 모두 0인 attention 행렬
  • lower triangular attention mask는 파인 튜닝 과정에서 다시 적용 시켜야됨

참고

Transformer에서 self attention 계산 과정