혼공 머신러닝/딥러닝 #6

이번 장은 비지도 학습(Unsupervised Learning) 중 군집 알고리즘과 차원 축소에 대해 배웠다.

  • 비지도 학습 : 타겟을 모르는 데이터를 대상으로 하는 알고리즘
  • 대표적으로 군집(Clustering), 차원 축소(Dimension Reduction)이 있음.

군집 알고리즘

  • 군집 : 비슷한 샘플끼리 그룹(cluster)으로 모으는 작업
  • 책에서는 작동방식을 보여주기 위해 사진을 픽셀의 평균값과의 절대값 오차를 이용해 분류를 해봄.

k-평균

  • 평균값을 자동으로 찾아줌
  • 평균값이 클러스터의 중심에 위치 : cluster center, centroid
  • 작동 방식
    1. 무작위로 k개를 샘플링해서 클러스터 중심을 찾는다.
    2. 모든 샘플에 대해 가장 가까운 클러스터 중심으로 샘플을 지정
    3. 평균값으로 클러스터 중심 재계산
    4. 중심에 변화가 없을 때 까지 2번 부터 계속..

미션 : k-평균 알고리즘의 작동 방식

  1. 랜덤한 데이터를 샘플링하여 k개의 클러스터를 초기화합니다.
  2. 각 데이터 포인트를 가장 가까운 클러스터로 할당합니다.
  3. 각 클러스터의 중심에 대한 평균값을 계산합니다.
  4. 각 데이터 포인트를 가장 가까운 중심에 대한 클러스터로 다시 할당합니다.
  5. 과정을 반복하여 더이상 변화가 없을 때까지 수행합니다.

이를 설명한 그림

https://brilliant.org/wiki/k-means-clustering/

주성분 분석

  • 차원 축소 : 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터의 크기를 줄이고 지고 학습 모델의 성능을 향상시키는 방법
    • 손실을 최대한 줄이며 복원할 수도
  • 주성분 분석(PCA, Principal Component Analysis)
    • 데이터에 있는 분산이 큰 방향을 찾는 것
    • 주성분 : 위의 분산을 표현하는 벡터 https://velog.velcdn.com/images%2Fswan9405%2Fpost%2F166e8e4d-0d6b-4639-a1b2-3a6d877ba6be%2Fimage.png
    • 회귀선 찾는 거랑 비슷한건가?
    • 주성분의 수 = 원본 데이터의 특성 개수
      • 원본 특성의 개수와 샘플 개수 중 작은 값만큼 찾을 수 있음.. 데이터가 적으면 적용 어려움.
    • 주성분에 projection : 압축
    • 두 번째 주성분 : 첫 번째 주성분에 수직이고 분산이 가장 큰 다음 방향, and go on

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다