TF-IDF (Term Frequency * Inverse Document Frequency)
각 단어와 문서 연관성을 확인하기 위해 사용함. 여기에서 말하는 연관성은 문장속 각 단어별로 문서에 대한 정보를 얼마나 갖고 있는 지를 수치로 나타낸 것이다.
Term Frequency : 문서에서 단어가 몇 번 출현했는 지
TF는 만약 단어가 문서 안에서 여러번 나타났다면 이 단어는 다른 단어들보다 문서의 연관성이 높다는 가정을 따른다.
하지만, TF score는 큰 단점이 있다.
'a', 'the'와 같은 관사가 문서에서 자주 등장할 수 밖에 없으므로 문서의 연관성을 잘 나타내지 못하는 이들의 TF score가 높게 나온다. 따라서 TF score로만 단어의 연관성을 판단하기에는 어려움이 있다.
Inverse Document Frequency : 문서에 자주 나타나는 단어들에 패널티를 부과
log( total # of docs / # of docs with the term in it)
log( total # of docs / (# of docs with the term in it + 1)) # 0으로 나누는 상황을 피하기 위해
'Deep Learning > NLP' 카테고리의 다른 글
[NLP] 자연어 유사도 측정 (0) | 2021.07.19 |
---|---|
[NLP] n-gram (0) | 2021.07.19 |
[NLP] Bag of words (0) | 2021.07.19 |