대규모 언어 모델, 핵심만 빠르게! 챌린지 2/5

2장. 언어 모델링 기초

이전 토큰을 기반으로 조건부 확률을 추정하여 시퀀스에 있는 다음 토큰을 예측
계산하는 것 = 어휘사전에 대해 유효한 이산 확률 분포
자기회귀(autoregressive) 언어 모델 OR 코잘(causal) 언어 모델 ↔ 마스크드(masked) 언어 모델
트라이그램 모델 예시 : 앞의 두 토큰을 보고 다음 토큰 계산
백오프 기법, 스무딩(add one, Laplace), 보간, etc
카운트 기반 모델 한계 → RNN, LSTM, Transformer 등 신경망 기반으로
- OOV를 다룰 수 없음
- 큰 문맥을 다룰 수 없음
- 제한된 사용만 가능(휴대폰 자동 완성)

혼잡도(perplexity) : 예측에 대한 확신을 표현, 모델이 토큰을 예측할 때 혼란스러운 정도
- 10 → 단계마다 10가지 가능성 중 하나를 균등하게 선택한다.
- gpt-2는 약 20정도, 최신 LLM은 5 이하의 값..
ROGUE : 생성 텍스트 – 참조 텍스트 간 토큰(또는 n-gram) 중복을 평가
- Recall-Oriented Understudy for Gisting Evaluation)
- 언어 모델 사이를 비교하는 용도로 적합
- 재현율, 정밀도
사람의 평가도 함께 적용 : Likert scale, Elo rating