얼렁뚱땅 스며드는 Data Science

자연어처리 4

[NLP] 자연어 유사도 측정

자연어 유사도 측정 Euclidean Distance 'princess', 'prince', 'man'이라는 단어들이 벡터로 표현되어 있을 때, 'man'과의 거리를 euclidean distance로 계산해보면 d1이 d2보다 짧아 'man'은 'prince'와 더 유사하다고 볼 수 있다. Cosine Similarity 'money money laudering'은 euclidean distance로 거리를 구했을 떼 'laundering'이라는 단어에 더 유사하다는 결과가 나온다. 실제로는 'money'가 2번, 'laundering'이 한번이므로 'money money money money money money'와 더 유사하다는 결과가 옳다. 이러한 문제는 벡터 특성 때문에 발생한다. 단어가 여러번..

Deep Learning/NLP 2021.07.19

[NLP] TF-IDF

TF-IDF (Term Frequency * Inverse Document Frequency) 각 단어와 문서 연관성을 확인하기 위해 사용함. 여기에서 말하는 연관성은 문장속 각 단어별로 문서에 대한 정보를 얼마나 갖고 있는 지를 수치로 나타낸 것이다. Term Frequency : 문서에서 단어가 몇 번 출현했는 지 TF는 만약 단어가 문서 안에서 여러번 나타났다면 이 단어는 다른 단어들보다 문서의 연관성이 높다는 가정을 따른다. 하지만, TF score는 큰 단점이 있다. 'a', 'the'와 같은 관사가 문서에서 자주 등장할 수 밖에 없으므로 문서의 연관성을 잘 나타내지 못하는 이들의 TF score가 높게 나온다. 따라서 TF score로만 단어의 연관성을 판단하기에는 어려움이 있다. Invers..

Deep Learning/NLP 2021.07.19

[NLP] Bag of words

Bag of Words 하나의 문장을 하나의 벡터로 표현한 방법 중 하나 Bag of Words는 머신러닝 모델의 입력값으로 사용이 가능하다. 머신러닝 모델은 string을 입력값으로 받지 못하므로 bag of words로 string을 vector로 변환시킨다. 단점 sparsity : 실제 사전에는 백만개 이상의 단어들이 존재하기 때문에 문장들을 bag of words로 표현했을 때, vector의 크기가 커지는 반면, 0이 무수히 많아 1이 sparse해진다. 이를 머신러닝 모델에 입력값으로 쓰일때, 연산에 많은 시간과 메모리를 차지하게 된다. Frequent words have big power : the, a 와 같은 관사들이 높은 빈도 수를 보이면 이들의 파워가 매우 세진다. 하지만 실제 데이..

Deep Learning/NLP 2021.07.19