얼렁뚱땅 스며드는 Data Science

Deep Learning/NLP

[NLP] TF-IDF

Jesip14 2021. 7. 19. 14:23

TF-IDF (Term Frequency * Inverse Document Frequency)

각 단어와 문서 연관성을 확인하기 위해 사용함. 여기에서 말하는 연관성은 문장속 각 단어별로 문서에 대한 정보를 얼마나 갖고 있는 지를 수치로 나타낸 것이다. 

 

Term Frequency : 문서에서 단어가 몇 번 출현했는 지

TF는 만약 단어가 문서 안에서 여러번 나타났다면 이 단어는 다른 단어들보다 문서의 연관성이 높다는 가정을 따른다.

car가 해당 문장에서 주요 단어이므로 올바른 결과가 나왔다.

하지만, TF score는 큰 단점이 있다.

실제 중요한 단어는 'friend'지만, 'a'도 높은 score를 받았다.

'a', 'the'와 같은 관사가 문서에서 자주 등장할 수 밖에 없으므로 문서의 연관성을 잘 나타내지 못하는 이들의 TF score가 높게 나온다. 따라서 TF score로만 단어의 연관성을 판단하기에는 어려움이 있다.

 

Inverse Document Frequency : 문서에 자주 나타나는 단어들에 패널티를 부과

log( total # of docs / # of docs with the term in it)
log( total # of docs / (# of docs with the term in it + 1))  # 0으로 나누는 상황을 피하기 위해

 

두 문서에서 등장하는 ''a'에는 0정이 주어짐.
TF와 IDF를 곱해준 값이 최종 단어 연관성을 나타내는 수치이다.

 

 

 

 

 

 

'Deep Learning > NLP' 카테고리의 다른 글

[NLP] 자연어 유사도 측정  (0) 2021.07.19
[NLP] n-gram  (0) 2021.07.19
[NLP] Bag of words  (0) 2021.07.19