728x90

NLP 4

[문서 제목 자동 분류 작업 | Clustering] 4. 한국어 Text Clustering TF-IDF K-means | 인턴

한국어 자연어 처리 시 유의할 점 한국어 자연어 처리에서 가장 중요한 것은 단어 추출이고, 단어 추출 안에서는 의미적인 기능을 하는 부분과 문법적인 기능을 하는 부분을 구분해서 처리하는 것이 중요하다. => 즉 한국어 자연어 처리에서는 형태소 분석이 매우 중요하다. 주어진 한국어 텍스트를 단어 원형의 형태로 분리해주는 작업 == 의미적인 부분 + 문법적인 부분으로 나누는 것. KoNLPy 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 라이브러리. 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해준다. Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 다섯 종류의 형태소 사전을 사용한다. Kkma a.k.a 꼬꼬마 서울대에서 자연어 처리를 위해서 만든 형태..

[문서 제목 자동 분류 작업 | Clustering] 3. K-Means 알고리즘 학습 적용 군집화 | 인턴

코드 tr_vector_eng = tfidf_vect_eng.fit_transform(df['CONTENT_TITLE']) # 원하는 컬럼을 가져와 fir_transform() 메소드를 통해 TF-IDF 모델을 학습하고 변환하며 # 그에 해당하는 행렬을 생성한다. kmeans_eng = KMeans(n_clusters=3,max_iter=10000,random_state=42) cluster_label_eng = kmeans_eng.fit_predict(ftr_vector_eng) df['cluster_eng'] = cluster_label_eng print(df.sort_values(by=['cluster_eng'])) 3개의 군집으로 군집화 진행 결과 Class 0 : 11906 / 15614 Cla..

[문서 제목 자동 분류 작업 | Clustering] 2. NLTK를 사용한 문서 제목 토큰화 및 어근 추출 | 인턴

# 데이터 프레임의 head 확인 CONTENT_CODE LAST_MODIFIED_DATE ... CONTENT_SECURITY_LEV DEPARTMENT_NM 0 C0000000............ 1.9......+13 ... .. OE개발기획팀 1 C0000000............ 1.9......+13 ... .. OE개발기획팀 2 C0000000............ 1.9......+13 ... .. OE개발기획팀 3 C0000000............ 2.0......+13 ... .. OE개발기획팀 4 C0000000............ 2.0......+13 ... .. R&D양산개발팀 [5 rows x 7 columns] 혹시모를 정보 유출 방지를 위해 수치적인 것 들은 일부 ..

[NLP] Bow에 기반한 Tf-idf | 인턴

BOW (Bag of Words) 텍스트 데이터를 처리하는 기본적인 방법 중 하나 문서 내의 단어들의 등장 순서를 무시하고, 각 단어의 등장 빈도를 기반으로 문서를 표현 Tf-idf BOW의 확장된 형태로, 각 단어의 중요도를 나타내는 수치 Term Frequency-Inverse Document Frequency의 약자로, 각 단어의 TF와 IDF를 조합하여 계산 주로 텍스트 마이닝, 정보 검색, 문서 분류 등에서 활용 문서 간 단어의 중요도를 고려하여 효과적으로 텍스트를 표현하는 데 사용 Term Frequency (TF, 단어 빈도) 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 표현 일반적으로는 해당 단어가 문서 내에서 등장한 횟수를 전체 단어 수로 나눈 값으로 계산 Inverse Docume..

728x90