728x90

😒 저 저 저 개념없는 나 61

[JAVA/Static] 자바 코드 실행 에러

정처기 시험 공부를 하고 있는데  거지같은 걸 발견 했다.  class Person{ pricate String name; public Person(String val){ name = val; } public static String get(){ return name; } public void print(){ System.out.prinln(name); } public class main{ public static void main(String[] args){ Person obj = new Person("Kim"); obj.print(); }} 위의 코드가 실행 될 경우 에러가 발생하는 라인이 어디라고 생각하십니까  이 얄팍하고 같잖은 ..

[DB] VALUE IN vs IN

데이터 베이스 DDL을 다시 공부하는 중에 의문이 생겼따. Domain 정의시에 IN 함수를 사용할 때가 있다. Table 정의 시에도 IN 함수를 사용할 때가 있다. Domain을 정의 시 IN 함수를 사용할 때의 예시는 CREATE DOMAIN 직위 VARCHAR(10) DEFAULT '사원' CONSTRAINT VALID-직위( VALUE IN '사원','대리','과장','부장','이사','사장') 요정도. Table 정의 시 IN 함수를 사용할 때 예시는 CREATE TABLE 사원 (직원 코드 NUMBER NOT NULL, 성명 CHAR(10) UNIQUE, 직책 CHAR(10) CHECK (직책 IN('사원','대리','과장','팀장'), 연봉 NUMBER); 요정도. 지금까지 아무 생각 없었..

[문서 제목 자동 분류 작업 | Classification] 3. 최종 실행 | 인턴

2024.01.29 - [😒 저 저 저 개념없는 나/⛓️ DL & ML] - [문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴 [문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴 0. Data train : 80% test : 20% 1. K-NN neighbor == 3 import pandas as pd from konlpy.tag import Kkma import string from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.neighbor..

[문서 제목 자동 분류 작업 | Classification] 2. 모델 별 실행 결과 | 인턴

0. Data train : 80% test : 20% 1. K-NN neighbor == 3 import pandas as pd from konlpy.tag import Kkma import string from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score, confusion_matrix csv_file_path = '../../data/spv/spv_data.csv' try: df = pd..

[문서 제목 자동 분류 작업 | Classification] 1. 데이터 생성 및 최적 모델 탐지 | 인턴

이전에 클러스터링으로 진행했던 결과와 비교하기 위해서 이번에는 지도학습으로 동일하게 문서 분류를 진행하고자 한다. 기존 데이터셋에 CATEGORY라는 colunm을 추가하여 지도학습에 사용할 데이터를 생성한다. 팀장님께서 요구하셨던 것이 사내 문서 제목으로만 분류를 하는 것 이였기에 순전히 문서 제목에서 키워드를 탐지하여땨. 1. 데이터 생성 세 개의 Class로 분류하는데 0 == 교육 : 문서 제목에 교육등의 단어가 포함된 문서들 1 == 시험 : 문서 제목에 시험 등의 단어가 포함된 문서들 2 == 자료 : 그 외의 모든 문서들 로 CATEGORY colunm의 값을 POWER ☆NOGADA☆로 지정하였.땨 2. 최적 모델 탐지 좋은 라이브러리를 하나 소개하고자 한다. 사용하는 Dataset을 기준..

[문서 제목 자동 분류 작업 | Clustering] 5. 한국어 Text Clustering Word2Vec K-means | 인턴

주요 라이브러리 KoNLPy의 KKma 사용 gensim의 Word2Vec 사용 Sklearn의 K-Means 알고리즘 사용 pip install konlpy pip install gensim pip install scikit-learn 진행 순서 데이터 수집 형태소 분석 : 포스태깅 -> KoNLPy의 kkm 사용 -> morphs 사용 gensim의 Word2Vec을 사용하여 벡터화 진행 클러스터링 진행 Word2Vec 단어를 N차원의 벡터로 만들어준다 텍스트만 tokenizing 해서 넣어주면 알고리즘을 통해 토큰 간의 상관관계를 찾아내고, 서로 유사한 공간에 배치하도록 만들어진다. 구현 코드 데이터 호출 및 전처리 import pandas as pd from sklearn.cluster impor..

[문서 제목 자동 분류 작업 | Clustering] 4. 한국어 Text Clustering TF-IDF K-means | 인턴

한국어 자연어 처리 시 유의할 점 한국어 자연어 처리에서 가장 중요한 것은 단어 추출이고, 단어 추출 안에서는 의미적인 기능을 하는 부분과 문법적인 기능을 하는 부분을 구분해서 처리하는 것이 중요하다. => 즉 한국어 자연어 처리에서는 형태소 분석이 매우 중요하다. 주어진 한국어 텍스트를 단어 원형의 형태로 분리해주는 작업 == 의미적인 부분 + 문법적인 부분으로 나누는 것. KoNLPy 자바 기반의 형태소 분석기를 파이썬에서 사용할 수 있게 해주는 라이브러리. 여러 한국어 형태소 사전을 기반으로 한국어 단어를 추출해준다. Mecab, 한나눔, 꼬꼬마, Komoran, Open Korean Text 다섯 종류의 형태소 사전을 사용한다. Kkma a.k.a 꼬꼬마 서울대에서 자연어 처리를 위해서 만든 형태..

[문서 제목 자동 분류 작업 | Clustering] 3. K-Means 알고리즘 학습 적용 군집화 | 인턴

코드 tr_vector_eng = tfidf_vect_eng.fit_transform(df['CONTENT_TITLE']) # 원하는 컬럼을 가져와 fir_transform() 메소드를 통해 TF-IDF 모델을 학습하고 변환하며 # 그에 해당하는 행렬을 생성한다. kmeans_eng = KMeans(n_clusters=3,max_iter=10000,random_state=42) cluster_label_eng = kmeans_eng.fit_predict(ftr_vector_eng) df['cluster_eng'] = cluster_label_eng print(df.sort_values(by=['cluster_eng'])) 3개의 군집으로 군집화 진행 결과 Class 0 : 11906 / 15614 Cla..

[문서 제목 자동 분류 작업 | Clustering] 2. NLTK를 사용한 문서 제목 토큰화 및 어근 추출 | 인턴

# 데이터 프레임의 head 확인 CONTENT_CODE LAST_MODIFIED_DATE ... CONTENT_SECURITY_LEV DEPARTMENT_NM 0 C0000000............ 1.9......+13 ... .. OE개발기획팀 1 C0000000............ 1.9......+13 ... .. OE개발기획팀 2 C0000000............ 1.9......+13 ... .. OE개발기획팀 3 C0000000............ 2.0......+13 ... .. OE개발기획팀 4 C0000000............ 2.0......+13 ... .. R&D양산개발팀 [5 rows x 7 columns] 혹시모를 정보 유출 방지를 위해 수치적인 것 들은 일부 ..

[문서 제목 자동 분류 작업 | Clustering] 1. CSV 파일 읽어오기 | 인턴

+) 분류에 사용하는 데이터는 sql 쿼리문으로 출력되어 csv 형태로 저장되어있는 파일을 불러와 사용한다. 코드 import pandas as pd csv_file_path = '../sql_result.csv' # 'utf-8'로 읽어보기 try: df = pd.read_csv(csv_file_path, encoding='utf-8') print('성공적으로 읽었습니다.') except UnicodeDecodeError: print('utf-8으로 디코딩하는 중 오류 발생. 다른 인코딩 시도 필요.') print(df) utf-8로 읽어오지 않으면 글자가 깨지기 때문에 예외처리를 해주었다. 결과 성공적으로 읽었습니다. CONTENT_CODE ... DEPARTMENT_NM 0 C000000000000..

728x90