728x90

classification 2

[문서 제목 자동 분류 작업 | Classification] 3. 최종 실행 | 인턴

2024.01.29 - [😒 저 저 저 개념없는 나/⛓️ DL & ML] - [문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴 [문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴 0. Data train : 80% test : 20% 1. K-NN neighbor == 3 import pandas as pd from konlpy.tag import Kkma import string from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.neighbor..

[문서 제목 자동 분류 작업 | Classification] 1. 데이터 생성 및 최적 모델 탐지 | 인턴

이전에 클러스터링으로 진행했던 결과와 비교하기 위해서 이번에는 지도학습으로 동일하게 문서 분류를 진행하고자 한다. 기존 데이터셋에 CATEGORY라는 colunm을 추가하여 지도학습에 사용할 데이터를 생성한다. 팀장님께서 요구하셨던 것이 사내 문서 제목으로만 분류를 하는 것 이였기에 순전히 문서 제목에서 키워드를 탐지하여땨. 1. 데이터 생성 세 개의 Class로 분류하는데 0 == 교육 : 문서 제목에 교육등의 단어가 포함된 문서들 1 == 시험 : 문서 제목에 시험 등의 단어가 포함된 문서들 2 == 자료 : 그 외의 모든 문서들 로 CATEGORY colunm의 값을 POWER ☆NOGADA☆로 지정하였.땨 2. 최적 모델 탐지 좋은 라이브러리를 하나 소개하고자 한다. 사용하는 Dataset을 기준..

728x90