728x90

KMeans 4

[문서 제목 자동 분류 작업 | Clustering] 5. 한국어 Text Clustering Word2Vec K-means | 인턴

주요 라이브러리 KoNLPy의 KKma 사용 gensim의 Word2Vec 사용 Sklearn의 K-Means 알고리즘 사용 pip install konlpy pip install gensim pip install scikit-learn 진행 순서 데이터 수집 형태소 분석 : 포스태깅 -> KoNLPy의 kkm 사용 -> morphs 사용 gensim의 Word2Vec을 사용하여 벡터화 진행 클러스터링 진행 Word2Vec 단어를 N차원의 벡터로 만들어준다 텍스트만 tokenizing 해서 넣어주면 알고리즘을 통해 토큰 간의 상관관계를 찾아내고, 서로 유사한 공간에 배치하도록 만들어진다. 구현 코드 데이터 호출 및 전처리 import pandas as pd from sklearn.cluster impor..

[문서 제목 자동 분류 작업 | Clustering] 4. 한국어 Text Clustering TF-IDF K-means | 인턴

한국어 자연어 처리 시 유의할 점 한국어 자연어 처리에서 가장 중요한 것은 단어 추출이고, 단어 추출 안에서는 의미적인 기능을 하는 부분과 문법적인 기능을 하는 부분을 구분해서 처리하는 것이 중요하다. => 즉 한국어 자연어 처리에서는 형태소 분석이 매우 중요하다. 주어진 한국어 텍스트를 단어 원형의 형태로 분리해주는 작업 == 의미적인 부분 + 문법적인 부분으로 나누는 것. KoNLPy 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 라이브러리. 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해준다. Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 다섯 종류의 형태소 사전을 사용한다. Kkma a.k.a 꼬꼬마 서울대에서 자연어 처리를 위해서 만든 형태..

[문서 제목 자동 분류 작업 | Clustering] 3. K-Means 알고리즘 학습 적용 군집화 | 인턴

코드 tr_vector_eng = tfidf_vect_eng.fit_transform(df['CONTENT_TITLE']) # 원하는 컬럼을 가져와 fir_transform() 메소드를 통해 TF-IDF 모델을 학습하고 변환하며 # 그에 해당하는 행렬을 생성한다. kmeans_eng = KMeans(n_clusters=3,max_iter=10000,random_state=42) cluster_label_eng = kmeans_eng.fit_predict(ftr_vector_eng) df['cluster_eng'] = cluster_label_eng print(df.sort_values(by=['cluster_eng'])) 3개의 군집으로 군집화 진행 결과 Class 0 : 11906 / 15614 Cla..

[Clustering | Classification] K-NN VS K-Means | 인턴

K-NN K-Means 공통점 K개의 점을 지정하여 거리를 기반으로 구현되는 거리 기반 분석 알고리즘 차이점 지도학습 비지도 학습 목적 : Classification 목적 : Clustering 이미지 출처 : https://opentutorials.org/course/4548/28942 회귀 VS 분류 - 생활코딩 지도학습은 크게 ‘회귀’와 ‘분류’로 나뉩니다. 회귀는 영어로 Regression이고, 분류는 Classification입니다. 와!! 말이 정말 어렵죠. 걱정 마세요. 알고 보면 하나도 안 어렵습니다. 그전에 아래 그 opentutorials.org

728x90