😒 저 저 저 개념없는 나/⛓️ DL & ML

[Clustering] K-means 알고리즘 | 인턴

우주수첩 2024. 1. 12. 16:59
728x90

종류

  • 비지도 학습 머신 러닝

 

 

의미

  • 데이터를 K개의 군집으로 묶는 알고리즘
  • k-means 알고리즘의 K는 군집의 개수를 의미하고 means는 평균을 의미한다.
  • 즉, 각 군집의 평균(mean)을 활용하여 K개의 군집으로 묶는다는 의미
  • 여기서의 평균은 각 클러스터의 중심과 데이터들의 평균거리를 의미한다.

 

 

 

원리

 

출처 : 위키피디아

 

1. 몇 개의 군집으로 군집화 할 것인지는 사람이 정한다.

  • 군집의 개수를 설정하는 방법론 3가지
    1. Rule of thumb
    2. Elbow Method
    3. 정보 기준 접근법 (Information Criterion Approach)
    +) 현재 진행하고자 하는 프로젝트에서는 3가지로 추리고자 한다.

 

2. 초기 중심점 설정

  • 무게중심을 설정한다.
  • 초기 중심점으로 어떤 값을 선택하는가에 따라 성능이 크게 달라지는 성질을 가지고 있다.
  • 방법
    1. Randomly select
    2. Manually assign
    3. K-means++    → 실제 사용되는 초기 중심값 설정 방법

 

3. 데이터를 군집에 할당(배정)

  • 거리상 가장 가까운 군집(중심점)으로 주어진 모든 데이터를 할당 또는 배정한다. : 유클리드 거리 계산

 

4. 중심점 재설정(갱신)

  • 모든 주어진 데이터의 군집 배정이 끝나면 군집의 중심점을 그 군집이 속하는 데이터들의 가장 중간(means)에 위치한 지점으로 재설정한다.

 

5. 데이터를 군집에 재할당(배정)한다.

  • 더이상의 중심점의 이동이 없을 때 까지 3,4반복.

 

 

참고 URL : https://techblog-history-younghunjo1.tistory.com/114

 

[NLP] 문서 군집화(Clustering)와 문서간 유사도(Similarity) 측정하기

이번 포스팅에서는 여러가지의 문서들을 군집화시켜보고 특정 하나의 문서가 다른 문서들간의 유사도를 측정해보는 방법에 대해서 알아보려고 한다. 군집분석은 비지도 학습으로 비슷한 데이

techblog-history-younghunjo1.tistory.com

 

 

728x90