Zettelkasten

트랜스포머 어텐션

·수정 2026.04.23·수정 3

트랜스포머 동작 원리 https://www.youtube.com/watch?v=6s69XY025MU&ab_channel=%EC%9E%84%EC%BB%A4%EB%B0%8B 트랜스 포머 어텐션: 관계를 잘 반영해서 표현을 수정해감으로써 문제를 해결하는 딥러닝 방법 2017년에 발표되고 많은 기술들의 기반 기술로 돌아가고 있음

  • 트랜스포머는 어텐션을 핵심 요소로 사용한다.

학습시킬때는 문장기준으로 단어들 사이의 상관관계를 찾고 출력을 내보낼땐 입력 토큰, 그리고 지금까지 나온 출력 토큰을 바탕으로 그 다음 토큰을 예측함

텐서 기초

  1. 정보 보존
    • 어떤 정보를 표현하는 W 텐서에 어떤 값을 곱한 텐서 W1에는 W가 남아 있음
  2. weigthed sum
    • N개의 텐서의 가중 평균(가중치의 합이 1인)은 정보들의 중간지점을 의미함
  3. 내적
    • 서로 비슷한 값을 내적하면 값이 크고, 다르면 값이 작다

query, key, value

https://velog.io/@jhbale11/%EC%96%B4%ED%85%90%EC%85%98-%EB%A7%A4%EC%BB%A4%EB%8B%88%EC%A6%98Attention-Mechanism%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B0%80 유튜브를 생각해보자

  • 검색 상자에 입력하는 텍스트 Query

  • 비디오 or 기사 제목으로 표시되는 결과가 key

  • 그 안의 내용은 value

  • 하나의 정보를 가진 query 텐서(query sequence)

  • N개의 키 텐서

  1. query 텐서와 N개의 키 텐서 각각에 대한 내적 진행
  2. 내적한 값을 정규화함(exp, )

입력 => 표현 변환 => 출력 표현 변환

  • 관계 계산
  • 추상화