728x90
코드
tr_vector_eng = tfidf_vect_eng.fit_transform(df['CONTENT_TITLE'])
# 원하는 컬럼을 가져와 fir_transform() 메소드를 통해 TF-IDF 모델을 학습하고 변환하며
# 그에 해당하는 행렬을 생성한다.
kmeans_eng = KMeans(n_clusters=3,max_iter=10000,random_state=42)
cluster_label_eng = kmeans_eng.fit_predict(ftr_vector_eng)
df['cluster_eng'] = cluster_label_eng
print(df.sort_values(by=['cluster_eng']))
- 3개의 군집으로 군집화 진행
결과
Class 0 : 11906 / 15614
Class 1 : 3456 / 15614
Class 2 : 252 / 15614
- 영어에는 잘 적용되지만 한국어에는 한계가 있는 것 같다.
- NLTK는 형태소 분석 기능이 없기 때문에 더 나은 결과 도출을 위해 다른 모델을 찾아보고자 한다.
728x90
'😒 저 저 저 개념없는 나 > ⛓️ DL & ML' 카테고리의 다른 글
[문서 제목 자동 분류 작업 | Clustering] 5. 한국어 Text Clustering Word2Vec K-means | 인턴 (0) | 2024.01.17 |
---|---|
[문서 제목 자동 분류 작업 | Clustering] 4. 한국어 Text Clustering TF-IDF K-means | 인턴 (1) | 2024.01.15 |
[문서 제목 자동 분류 작업 | Clustering] 2. NLTK를 사용한 문서 제목 토큰화 및 어근 추출 | 인턴 (0) | 2024.01.15 |
[문서 제목 자동 분류 작업 | Clustering] 1. CSV 파일 읽어오기 | 인턴 (0) | 2024.01.15 |
[Clustering | Classification] K-NN VS K-Means | 인턴 (0) | 2024.01.15 |