728x90

머신러닝 2

[문서 제목 자동 분류 작업 | Clustering] 4. 한국어 Text Clustering TF-IDF K-means | 인턴

한국어 자연어 처리 시 유의할 점 한국어 자연어 처리에서 가장 중요한 것은 단어 추출이고, 단어 추출 안에서는 의미적인 기능을 하는 부분과 문법적인 기능을 하는 부분을 구분해서 처리하는 것이 중요하다. => 즉 한국어 자연어 처리에서는 형태소 분석이 매우 중요하다. 주어진 한국어 텍스트를 단어 원형의 형태로 분리해주는 작업 == 의미적인 부분 + 문법적인 부분으로 나누는 것. KoNLPy 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 라이브러리. 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해준다. Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 다섯 종류의 형태소 사전을 사용한다. Kkma a.k.a 꼬꼬마 서울대에서 자연어 처리를 위해서 만든 형태..

[Clustering] K-means 알고리즘 | 인턴

종류 비지도 학습 머신 러닝 의미 데이터를 K개의 군집으로 묶는 알고리즘 k-means 알고리즘의 K는 군집의 개수를 의미하고 means는 평균을 의미한다. 즉, 각 군집의 평균(mean)을 활용하여 K개의 군집으로 묶는다는 의미 여기서의 평균은 각 클러스터의 중심과 데이터들의 평균거리를 의미한다. 원리 1. 몇 개의 군집으로 군집화 할 것인지는 사람이 정한다. 군집의 개수를 설정하는 방법론 3가지 Rule of thumb Elbow Method 정보 기준 접근법 (Information Criterion Approach) +) 현재 진행하고자 하는 프로젝트에서는 3가지로 추리고자 한다. 2. 초기 중심점 설정 무게중심을 설정한다. 초기 중심점으로 어떤 값을 선택하는가에 따라 성능이 크게 달라지는 성질을 ..

728x90