대규모 언어 모델, 핵심만 빠르게! 챌린지 1/5

작성일자 2025-11-20 글쓴이 samsee

새로 나온 책에 챌린지가 떴길래 바로 신청을 해봤다.

책은 대규모 언어 모델, 핵심만 빠르게! 이고 챌린지는 인프런 에서 진행. 요새 책과 챌린지, 인강이 결합하는 방식이 눈에 많이 띈다.

머신 러닝은 그래도 이래저래 접해서 조금 알고 있다고 생각했는데 역시나 사파로 배워서 그런지 모르는 내용들이 상당히 많았다.

1장. 머신러닝과 기초

초기의 시도와 기대, 실패
1950년대부터 전문가들은 약 25년 내에 사람 수준의 AI가 실현될 거라 꾸준히 예측해 왔습니다.
머신러닝 용어 등장. 1959년 Arthur Samuel, 컴퓨터가 경험으로부터 학습하도록 프로그래밍하는 것
신경망 등장. 1958년 Frank Rosenblatt, perceptron
결정 트리, ID3, 랜덤 포레스트, SVM,

모델

모델은 일반적으로 수학 방정식으로 표현
머신러닝의 목표는 샘플의 데이터셋을 사용해 f를 만드는 것
파라미터
선형회귀 예시로 설명
1차 도함수(first derivative)? 편도함수(partial -)
해석적으로 푼다?

머신러닝 프로세스

데이터셋 수집 → 모델 구조 정의 → 손실 정의 → 손실 최소화

벡터

특성 벡터, 차원, 요소
유사도
노름(norm)
영벡터, 단위 벡터
점곱

신경망

선형 모델과의 차이점
- 훈련 가능한 선형 함수의 출력에 고정된 비선형 함수를 적용
- 여러 함수를 층으로 쌓아 깊은 모델 구조를 형성
선형 함수의 제한
활성화 함수
ReLU, sigmoid, tanh
e, 오일러 수
층의 의미
비선형 유닛, 인공 뉴런
피드포워드 신경망
MLP
FC(dense) layer
유닛 크기에 따른 비선형 모델의 성능 향상

행렬

행렬을 이용해 계산을 효율화
FC의 가중치와 편향을 행렬과 벡터를 사용해 표현

경사 하강법

신경망. 규모, 비선형 함수 때문에 해석적으로 풀기 어려움. → 경사하강법
로지스틱 회귀
로지스틱 손실, 이진 크로스 엔트로피

자동 미분

automatic differentiation, autograd
파이토치 등장
https://tutorials.pytorch.kr/beginner/introyt/tensors_deeper_tutorial.html
역전파

관련

답글 남기기 응답 취소