728x90

Python 7

[문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴

0. Data train : 80% test : 20% 1. K-NN neighbor == 3 import pandas as pd from konlpy.tag import Kkma import string from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, confusion_matrix csv_file_path = '../../data/spv/spv_data.csv' try: df = pd..

[문서 제목 자동 분류 작업 | Classification] 1. 데이터 생성 및 최적 모델 탐지 | 인턴

이전에 클러스터링으로 진행했던 결과와 비교하기 위해서 이번에는 지도학습으로 동일하게 문서 분류를 진행하고자 한다. 기존 데이터셋에 CATEGORY라는 colunm을 추가하여 지도학습에 사용할 데이터를 생성한다. 팀장님께서 요구하셨던 것이 사내 문서 제목으로만 분류를 하는 것 이였기에 순전히 문서 제목에서 키워드를 탐지하여땨. 1. 데이터 생성 세 개의 Class로 분류하는데 0 == 교육 : 문서 제목에 교육등의 단어가 포함된 문서들 1 == 시험 : 문서 제목에 시험 등의 단어가 포함된 문서들 2 == 자료 : 그 외의 모든 문서들 로 CATEGORY colunm의 값을 POWER ☆NOGADA☆로 지정하였.땨 2. 최적 모델 탐지 좋은 라이브러리를 하나 소개하고자 한다. 사용하는 Dataset을 기준..

[문서 제목 자동 분류 작업 | Clustering] 5. 한국어 Text Clustering Word2Vec K-means | 인턴

주요 라이브러리 KoNLPy의 KKma 사용 gensim의 Word2Vec 사용 Sklearn의 K-Means 알고리즘 사용 pip install konlpy pip install gensim pip install scikit-learn 진행 순서 데이터 수집 형태소 분석 : 포스태깅 -> KoNLPy의 kkm 사용 -> morphs 사용 gensim의 Word2Vec을 사용하여 벡터화 진행 클러스터링 진행 Word2Vec 단어를 N차원의 벡터로 만들어준다 텍스트만 tokenizing 해서 넣어주면 알고리즘을 통해 토큰 간의 상관관계를 찾아내고, 서로 유사한 공간에 배치하도록 만들어진다. 구현 코드 데이터 호출 및 전처리 import pandas as pd from sklearn.cluster impor..

[Image processing] Median Filtering

앞서 포스팅 했던 두 numpy 라이브러리를 활용하여 Median Filtering을 진행하고자 한다. median : https://dusty-wznt.tistory.com/82 clip : https://dusty-wznt.tistory.com/83 Median filtering은 이미지가 가지고 있는 noise를 제거하기 위한 필터링의 방법 중 하나로 이미지에 Mask를 씌워 해당 마스크의 크기만큼 이미지의 픽셀값을 조회한 뒤 정렬된 픽셀값들 중 중앙 값 저장하여 salt and pepper noise와 같은 튀는값을 제거하고자 하는 목적으로 사용된다. def median_filtering(src, msize): h, w = src.shape dst = np.zeros((h, w)) for row ..

[numpy | python] numpy.median

# np.median() np.median(array) : 파라미터로 들어온 array 의 정렬된 중간 값을 구해준다. import numpy as np arr = [2, 5, 7, 6, 8, 10, 11] m = np.median(arr) print(m) 위의 코드를 실행했을 경우 2 5 6 7 8 10 11순으로 정렬 된 array의 가운데 값인 7이 반환된다 import numpy as np arr = [2, 5, 7, 8, 10, 11] m = np.median(arr) print(m) 위의 경우처러 짝수일 경우에는 7과 8의 중간값이 7.5가 반환된다.

728x90