대규모 언어 모델, 핵심만 빠르게! 챌린지 4/5

4장. 트랜스포머

트랜스포머 모델의 유형
- 인코더-디코더 기반 구조 : 기계 번역
- 인코더 기반 구조 : 분류
- 디코더 기반 구조 : 채팅 LM
자기회귀 언어 모델 훈련에 많이 사용하는 디코더 기반 트랜스포머 중심으로 구성
트랜스포머의 혁신 : 셀프 어텐션, 위치 인코딩
- 셀프 어텐션 : 각 단어가 다른 모든 단어와 얼마나 관련이 있느지 평가
- 위치 인코딩 : 단어의 순서와 순차 패턴을 포착
- 모든 토큰을 동시에 처리 ↔ RNN
- 위치 인코딩으로 순차적인 맥락을 유지
디코더 기반 트랜스포머(decoder only transformer)
- 디코더 블록을 여러 개 쌓아올린 형태
- 블록 구조는 동일하지만 각 블록마다 파라미터는 다름
- 입력 시퀀스 + 타겟 시퀀스(= 입력 시퀀스 한 토큰씩 이동시킨)
디코더 블록
- 셀프 어텐션 층 + 위치별 MLP 층
- 연산
  - 셀프 어텐션 층 = 1~L 모든 토큰에 대해 입력 임베딩 벡터(x)를 새로운 벡터(g)로 변환
  - MLP 층 = 토큰별 g를 독립적으로 처리.. 뭘 처리??

멀티헤드 어텐션 → 셀프 어텐션의 고급 버전, 여러 정보에 동시에 초점을 맞춤, 구문 관계 포착, 의미 유사성 포착, 토큰 사이 장거리 의존성 감지, …
최신 모델은 최대 128개의 헤드를 사용하기도
각각의 헤드에 QKV 가중치