대규모 언어 모델, 핵심만 빠르게! 챌린지 5/5

대규모 언어 모델 핵심만 빠르게 - 책 표지

1장. 머신러닝과 기초

2장. 언어 모델링 기초

3장. 순환 신경망

4장. 트랜스포머

 

5장. 대규모 언어 모델

  • 대규모의 의미
    • 파라미터 수
    • 문맥 크기
    • 최적화 기법
    • 대규모 데이터셋
    • 계산 인프라
  • 다음 토큰을 예측하는 일반적인 언어 모델을 채팅 LM로 만드는 방법 : 지도 학습 미세 튜닝
  • LLM을 감정 분류 태스트로 바꾸기 예시
  • 지시를 따르도록 미세 튜닝
    • 프롬프트 포맷(프롬프트 스타일)

언어 모델의 샘플링

  • 그리디 디코딩 : 가장 높은 확률을 가진 토큰을 선택
  • 온도를 사용한 기본 샘플링
  • 탑-k 샘플링 : k 개 중에서
  • 탑-p 샘플링 : 누적확률 임계값
  • 반복적인 단어 피하기
    • 빈도 패널티 : 자주 나오면 나올수록 확률 줄이기
    • 존재 패널티 : 나왔으면 확률 줄이기

LoRA

  • 미세 튜닝 방식, 일부 파라미터만 업데이트
  • 수정 사항을 포착하는 작은 행렬(adapter)을 모델에 추가
  • 토큰 임베딩을 변경(토큰 생성 확률 분포에 변화)
  • PEFT : huggingface 라이브러리로 LoRA를 쉽게 구현할 수 있음.
  • 분류용 LLM 예시(라벨 대신 로짓 생성하도록 → 전체 라벨의 확률 알 수 있음)

이외의 내용

  • 프롬프트 엔지니어링, 좋은 프롬프트의 특징
  • 환각, 환각을 줄이기 위한 방법들
  • LLM, 저작권, 윤리

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다