728x90
종류
- 비지도 학습 머신 러닝
의미
- 데이터를 K개의 군집으로 묶는 알고리즘
- k-means 알고리즘의 K는 군집의 개수를 의미하고 means는 평균을 의미한다.
- 즉, 각 군집의 평균(mean)을 활용하여 K개의 군집으로 묶는다는 의미
- 여기서의 평균은 각 클러스터의 중심과 데이터들의 평균거리를 의미한다.
원리
1. 몇 개의 군집으로 군집화 할 것인지는 사람이 정한다.
- 군집의 개수를 설정하는 방법론 3가지
- Rule of thumb
- Elbow Method
- 정보 기준 접근법 (Information Criterion Approach)
2. 초기 중심점 설정
- 무게중심을 설정한다.
- 초기 중심점으로 어떤 값을 선택하는가에 따라 성능이 크게 달라지는 성질을 가지고 있다.
- 방법
- Randomly select
- Manually assign
- K-means++ → 실제 사용되는 초기 중심값 설정 방법
3. 데이터를 군집에 할당(배정)
- 거리상 가장 가까운 군집(중심점)으로 주어진 모든 데이터를 할당 또는 배정한다. : 유클리드 거리 계산
4. 중심점 재설정(갱신)
- 모든 주어진 데이터의 군집 배정이 끝나면 군집의 중심점을 그 군집이 속하는 데이터들의 가장 중간(means)에 위치한 지점으로 재설정한다.
5. 데이터를 군집에 재할당(배정)한다.
- 더이상의 중심점의 이동이 없을 때 까지 3,4반복.
참고 URL : https://techblog-history-younghunjo1.tistory.com/114
728x90
'😒 저 저 저 개념없는 나 > ⛓️ DL & ML' 카테고리의 다른 글
[문서 제목 자동 분류 작업 | Clustering] 1. CSV 파일 읽어오기 | 인턴 (0) | 2024.01.15 |
---|---|
[Clustering | Classification] K-NN VS K-Means | 인턴 (0) | 2024.01.15 |
[NLP] Bow에 기반한 Tf-idf | 인턴 (0) | 2024.01.12 |
[LLM] LLM Fine Tuning 공부 | 인턴 (0) | 2023.10.19 |
[딥러닝] Backpropagation (0) | 2023.04.18 |