😒 저 저 저 개념없는 나/⛓️ DL & ML

[NLP] Bow에 기반한 Tf-idf | 인턴

우주수첩 2024. 1. 12. 16:40
728x90

BOW (Bag of Words)

  • 텍스트 데이터를 처리하는 기본적인 방법 중 하나
  • 문서 내의 단어들의 등장 순서를 무시하고, 각 단어의 등장 빈도를 기반으로 문서를 표현

 

Tf-idf

  • BOW의 확장된 형태로, 각 단어의 중요도를 나타내는 수치
  • Term Frequency-Inverse Document Frequency의 약자로, 각 단어의 TF와 IDF를 조합하여 계산
  • 주로 텍스트 마이닝, 정보 검색, 문서 분류 등에서 활용
  • 문서 간 단어의 중요도를 고려하여 효과적으로 텍스트를 표현하는 데 사용

 

Term Frequency (TF, 단어 빈도)

  • 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 표현
  • 일반적으로는 해당 단어가 문서 내에서 등장한 횟수를 전체 단어 수로 나눈 값으로 계산

 

Inverse Document Frequency (IDF, 역문헌 빈도)

  • 특정 단어가 전체 문서 중에서 얼마나 고유한지를 표현
  • 일반적으로는 전체 문서 수를 해당 단어를 포함하는 문서의 수로 나눈 뒤, 로그를 취한 값으로 계산

 

 

Tf-idf (Term Frequency-Inverse Document Frequency)

  • TF와 IDF를 조합하여 특정 단어의 중요도를 계산
  • 각 단어에 대한 Tf-idf 값은 TF와 IDF의 곱으로 표현 가능

 

 

 

728x90