728x90
+) 분류에 사용하는 데이터는 sql 쿼리문으로 출력되어 csv 형태로 저장되어있는 파일을 불러와 사용한다.
코드
import pandas as pd
csv_file_path = '../sql_result.csv'
# 'utf-8'로 읽어보기
try:
df = pd.read_csv(csv_file_path, encoding='utf-8')
print('성공적으로 읽었습니다.')
except UnicodeDecodeError:
print('utf-8으로 디코딩하는 중 오류 발생. 다른 인코딩 시도 필요.')
print(df)
utf-8로 읽어오지 않으면 글자가 깨지기 때문에 예외처리를 해주었다.
결과
성공적으로 읽었습니다.
CONTENT_CODE ... DEPARTMENT_NM
0 C0000000000000448219 ... OE개발기획팀
1 C0000000000000447978 ... OE개발기획팀
2 C0000000000000909057 ... OE개발기획팀
3 C0000000000000909054 ... OE개발기획팀
4 C0000000000003949066 ... R&D양산개발팀
... ... ... ...
15609 C0000000000009459361 ... OE개발기획팀
15610 C0000000000004401390 ... OE개발기획팀
15611 C0000000000005175718 ... OE개발기획팀
15612 C0000000000005216047 ... OE개발기획팀
15613 C0000000000005286403 ... OE개발기획팀
[15614 rows x 7 columns]
15614개의 행을 확인 할 수 있다.
728x90
'😒 저 저 저 개념없는 나 > ⛓️ DL & ML' 카테고리의 다른 글
[문서 제목 자동 분류 작업 | Clustering] 3. K-Means 알고리즘 학습 적용 군집화 | 인턴 (0) | 2024.01.15 |
---|---|
[문서 제목 자동 분류 작업 | Clustering] 2. NLTK를 사용한 문서 제목 토큰화 및 어근 추출 | 인턴 (0) | 2024.01.15 |
[Clustering | Classification] K-NN VS K-Means | 인턴 (0) | 2024.01.15 |
[Clustering] K-means 알고리즘 | 인턴 (0) | 2024.01.12 |
[NLP] Bow에 기반한 Tf-idf | 인턴 (0) | 2024.01.12 |