이번 장은 비지도 학습(Unsupervised Learning) 중 군집 알고리즘과 차원 축소에 대해 배웠다.
- 비지도 학습 : 타겟을 모르는 데이터를 대상으로 하는 알고리즘
- 대표적으로 군집(Clustering), 차원 축소(Dimension Reduction)이 있음.
군집 알고리즘
- 군집 : 비슷한 샘플끼리 그룹(cluster)으로 모으는 작업
- 책에서는 작동방식을 보여주기 위해 사진을 픽셀의 평균값과의 절대값 오차를 이용해 분류를 해봄.
k-평균
- 평균값을 자동으로 찾아줌
- 평균값이 클러스터의 중심에 위치 : cluster center, centroid
- 작동 방식
- 무작위로 k개를 샘플링해서 클러스터 중심을 찾는다.
- 모든 샘플에 대해 가장 가까운 클러스터 중심으로 샘플을 지정
- 평균값으로 클러스터 중심 재계산
- 중심에 변화가 없을 때 까지 2번 부터 계속..
미션 : k-평균 알고리즘의 작동 방식
- 랜덤한 데이터를 샘플링하여 k개의 클러스터를 초기화합니다.
- 각 데이터 포인트를 가장 가까운 클러스터로 할당합니다.
- 각 클러스터의 중심에 대한 평균값을 계산합니다.
- 각 데이터 포인트를 가장 가까운 중심에 대한 클러스터로 다시 할당합니다.
- 과정을 반복하여 더이상 변화가 없을 때까지 수행합니다.
이를 설명한 그림
주성분 분석
- 차원 축소 : 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터의 크기를 줄이고 지고 학습 모델의 성능을 향상시키는 방법
- 손실을 최대한 줄이며 복원할 수도
- 주성분 분석(PCA, Principal Component Analysis)
- 데이터에 있는 분산이 큰 방향을 찾는 것
- 주성분 : 위의 분산을 표현하는 벡터
- 회귀선 찾는 거랑 비슷한건가?
- 주성분의 수 = 원본 데이터의 특성 개수
- 원본 특성의 개수와 샘플 개수 중 작은 값만큼 찾을 수 있음.. 데이터가 적으면 적용 어려움.
- 주성분에 projection : 압축
- 두 번째 주성분 : 첫 번째 주성분에 수직이고 분산이 가장 큰 다음 방향, and go on