혼공 머신러닝/딥러닝 #6

작성일자 2023-02-12 글쓴이 samsee

이번 장은 비지도 학습(Unsupervised Learning) 중 군집 알고리즘과 차원 축소에 대해 배웠다.

비지도 학습 : 타겟을 모르는 데이터를 대상으로 하는 알고리즘
대표적으로 군집(Clustering), 차원 축소(Dimension Reduction)이 있음.

군집 알고리즘

군집 : 비슷한 샘플끼리 그룹(cluster)으로 모으는 작업
책에서는 작동방식을 보여주기 위해 사진을 픽셀의 평균값과의 절대값 오차를 이용해 분류를 해봄.

k-평균

평균값을 자동으로 찾아줌
평균값이 클러스터의 중심에 위치 : cluster center, centroid
작동 방식
1. 무작위로 k개를 샘플링해서 클러스터 중심을 찾는다.
2. 모든 샘플에 대해 가장 가까운 클러스터 중심으로 샘플을 지정
3. 평균값으로 클러스터 중심 재계산
4. 중심에 변화가 없을 때 까지 2번 부터 계속..

미션 : k-평균 알고리즘의 작동 방식

랜덤한 데이터를 샘플링하여 k개의 클러스터를 초기화합니다.
각 데이터 포인트를 가장 가까운 클러스터로 할당합니다.
각 클러스터의 중심에 대한 평균값을 계산합니다.
각 데이터 포인트를 가장 가까운 중심에 대한 클러스터로 다시 할당합니다.
과정을 반복하여 더이상 변화가 없을 때까지 수행합니다.

이를 설명한 그림

https://brilliant.org/wiki/k-means-clustering/

주성분 분석

차원 축소 : 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터의 크기를 줄이고 지고 학습 모델의 성능을 향상시키는 방법
- 손실을 최대한 줄이며 복원할 수도
주성분 분석(PCA, Principal Component Analysis)
- 데이터에 있는 분산이 큰 방향을 찾는 것
- 주성분 : 위의 분산을 표현하는 벡터
- 회귀선 찾는 거랑 비슷한건가?
- 주성분의 수 = 원본 데이터의 특성 개수
  - 원본 특성의 개수와 샘플 개수 중 작은 값만큼 찾을 수 있음.. 데이터가 적으면 적용 어려움.
- 주성분에 projection : 압축
- 두 번째 주성분 : 첫 번째 주성분에 수직이고 분산이 가장 큰 다음 방향, and go on

관련

답글 남기기 응답 취소