728x90
BOW (Bag of Words)
- 텍스트 데이터를 처리하는 기본적인 방법 중 하나
- 문서 내의 단어들의 등장 순서를 무시하고, 각 단어의 등장 빈도를 기반으로 문서를 표현
Tf-idf
- BOW의 확장된 형태로, 각 단어의 중요도를 나타내는 수치
- Term Frequency-Inverse Document Frequency의 약자로, 각 단어의 TF와 IDF를 조합하여 계산
- 주로 텍스트 마이닝, 정보 검색, 문서 분류 등에서 활용
- 문서 간 단어의 중요도를 고려하여 효과적으로 텍스트를 표현하는 데 사용
Term Frequency (TF, 단어 빈도)
- 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 표현
- 일반적으로는 해당 단어가 문서 내에서 등장한 횟수를 전체 단어 수로 나눈 값으로 계산
Inverse Document Frequency (IDF, 역문헌 빈도)
- 특정 단어가 전체 문서 중에서 얼마나 고유한지를 표현
- 일반적으로는 전체 문서 수를 해당 단어를 포함하는 문서의 수로 나눈 뒤, 로그를 취한 값으로 계산
Tf-idf (Term Frequency-Inverse Document Frequency)
- TF와 IDF를 조합하여 특정 단어의 중요도를 계산
- 각 단어에 대한 Tf-idf 값은 TF와 IDF의 곱으로 표현 가능
728x90
'😒 저 저 저 개념없는 나 > ⛓️ DL & ML' 카테고리의 다른 글
[문서 제목 자동 분류 작업 | Clustering] 1. CSV 파일 읽어오기 | 인턴 (0) | 2024.01.15 |
---|---|
[Clustering | Classification] K-NN VS K-Means | 인턴 (0) | 2024.01.15 |
[Clustering] K-means 알고리즘 | 인턴 (0) | 2024.01.12 |
[LLM] LLM Fine Tuning 공부 | 인턴 (0) | 2023.10.19 |
[딥러닝] Backpropagation (0) | 2023.04.18 |