😒 저 저 저 개념없는 나/⛓️ DL & ML

[문서 제목 자동 분류 작업 | Clustering] 3. K-Means 알고리즘 학습 적용 군집화 | 인턴

우주수첩 2024. 1. 15. 09:56
728x90

코드

 

tr_vector_eng = tfidf_vect_eng.fit_transform(df['CONTENT_TITLE'])
# 원하는 컬럼을 가져와 fir_transform() 메소드를 통해 TF-IDF 모델을 학습하고 변환하며 
# 그에 해당하는 행렬을 생성한다.


kmeans_eng = KMeans(n_clusters=3,max_iter=10000,random_state=42)

cluster_label_eng = kmeans_eng.fit_predict(ftr_vector_eng)

df['cluster_eng'] = cluster_label_eng

print(df.sort_values(by=['cluster_eng']))

 

 

  • 3개의 군집으로 군집화 진행

 

 

결과

 

Class 0 : 11906 / 15614
Class 1 : 3456 / 15614
Class 2 : 252 / 15614

 

  • 영어에는 잘 적용되지만 한국어에는 한계가 있는 것 같다. 
  • NLTK는 형태소 분석 기능이 없기 때문에 더 나은 결과 도출을 위해 다른 모델을 찾아보고자 한다.

 

 

728x90