Encoder에서 self attention 계산시 Lower Triangular를 이용해 인과적 구조로 예측가능한 트랜스포머 구조를 만든다.

2025.09.09·수정 2026.04.23·수정 1회

transformer whisper speech-to-text

요약

기본적으로 transformer는 입력 데이터의 양방향 self-attention을 계산해 현재 토큰의 표현을 만듦
하지만 이런 방식은 정확도는 높지만 앞뒤 모든 입력을 다 모은 이후에 처리가 가능함 그리고 이런 방식은 스트리밍 처리방식에 불리함
이를 해결하기 위해 lower triangular attention mask를 사용해서 현재 시점 이전의 토큰만 보도록 제한하면 순차적으로 입력을 처리할 수 있음
그 뿐만아니라 인과적 attention 구조로 인해, 이전 블록에서 계산한 kv를 그대로 사용가능함(이해 못함)

본문

lower triangular attention mask는 오른쪽 위의 값이 모두 0인 attention 행렬
lower triangular attention mask는 파인 튜닝 과정에서 다시 적용 시켜야됨

참고

Transformer에서 self attention 계산 과정

함께 읽기 좋은 글