😒 저 저 저 개념없는 나/⛓️ DL & ML
[NLP] Bow에 기반한 Tf-idf | 인턴
우주수첩
2024. 1. 12. 16:40
728x90
BOW (Bag of Words)
- 텍스트 데이터를 처리하는 기본적인 방법 중 하나
- 문서 내의 단어들의 등장 순서를 무시하고, 각 단어의 등장 빈도를 기반으로 문서를 표현
Tf-idf
- BOW의 확장된 형태로, 각 단어의 중요도를 나타내는 수치
- Term Frequency-Inverse Document Frequency의 약자로, 각 단어의 TF와 IDF를 조합하여 계산
- 주로 텍스트 마이닝, 정보 검색, 문서 분류 등에서 활용
- 문서 간 단어의 중요도를 고려하여 효과적으로 텍스트를 표현하는 데 사용
Term Frequency (TF, 단어 빈도)
- 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 표현
- 일반적으로는 해당 단어가 문서 내에서 등장한 횟수를 전체 단어 수로 나눈 값으로 계산
Inverse Document Frequency (IDF, 역문헌 빈도)
- 특정 단어가 전체 문서 중에서 얼마나 고유한지를 표현
- 일반적으로는 전체 문서 수를 해당 단어를 포함하는 문서의 수로 나눈 뒤, 로그를 취한 값으로 계산
Tf-idf (Term Frequency-Inverse Document Frequency)
- TF와 IDF를 조합하여 특정 단어의 중요도를 계산
- 각 단어에 대한 Tf-idf 값은 TF와 IDF의 곱으로 표현 가능
728x90