728x90

파이썬 6

[문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴

0. Data train : 80% test : 20% 1. K-NN neighbor == 3 import pandas as pd from konlpy.tag import Kkma import string from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, confusion_matrix csv_file_path = '../../data/spv/spv_data.csv' try: df = pd..

[문서 제목 자동 분류 작업 | Classification] 1. 데이터 생성 및 최적 모델 탐지 | 인턴

이전에 클러스터링으로 진행했던 결과와 비교하기 위해서 이번에는 지도학습으로 동일하게 문서 분류를 진행하고자 한다. 기존 데이터셋에 CATEGORY라는 colunm을 추가하여 지도학습에 사용할 데이터를 생성한다. 팀장님께서 요구하셨던 것이 사내 문서 제목으로만 분류를 하는 것 이였기에 순전히 문서 제목에서 키워드를 탐지하여땨. 1. 데이터 생성 세 개의 Class로 분류하는데 0 == 교육 : 문서 제목에 교육등의 단어가 포함된 문서들 1 == 시험 : 문서 제목에 시험 등의 단어가 포함된 문서들 2 == 자료 : 그 외의 모든 문서들 로 CATEGORY colunm의 값을 POWER ☆NOGADA☆로 지정하였.땨 2. 최적 모델 탐지 좋은 라이브러리를 하나 소개하고자 한다. 사용하는 Dataset을 기준..

[python] jupyter notebook ER 500: Internet Server Erro

아아ㅏ아아아ㅏ아아알악ㅇ가악아강가악아강가악아강가 잘 돌아가다가 갑자기 왜 이럴까 진짜. 오류 ImportError: cannot import name 'contextfilter' from 'jinja2' 1차 시도 conda update jupyter 실패히 처참. 2트 conda update --all pip install jupyter --upgrade 실패지게 야무. 3트 걍 빡침. pip uninstall -y jupyter jupyter_core jupyter-client jupyter-console jupyterlab_pygments notebook qtconsole nbconvert nbformat pip install jupyter 지움. 시험기간의 대학생을 건들지 말라. conda inst..

[numpy | python] numpy.median

# np.median() np.median(array) : 파라미터로 들어온 array 의 정렬된 중간 값을 구해준다. import numpy as np arr = [2, 5, 7, 6, 8, 10, 11] m = np.median(arr) print(m) 위의 코드를 실행했을 경우 2 5 6 7 8 10 11순으로 정렬 된 array의 가운데 값인 7이 반환된다 import numpy as np arr = [2, 5, 7, 8, 10, 11] m = np.median(arr) print(m) 위의 경우처러 짝수일 경우에는 7과 8의 중간값이 7.5가 반환된다.

728x90