얼렁뚱땅 스며드는 Data Science

Deep Learning/NLP

[NLP] n-gram

Jesip14 2021. 7. 19. 07:28

n-gram

연속적으로 n개의 token (words, character, ...)로 이뤄진 것

 

1-gram은 1개의 단어 혹은 1개의 문자열로 이뤄진 것이다.

 

2-gram은 2개의 단어 혹은 2개의 문자열로 이뤄진 것이다.
3-gram은 3개의 단어 혹은 3개의 문자열로 이뤄진 것이다.

 

n-gram을 사용하는 이유

  • Overcome the bag of words' drawback : 단어의 순서가 무시된다는 문제 극복

예제 : machine learning is fun and is not boring

bag of word에 위 문장을 넣었을 때 'not'이 어떤 단어에 속하는지 모르게 된다.

machine learning과 not boring이 각각 하나의 token이 된다.

  • Next word prediction

how are를 입력받았을 때 다음에 올 단어를 count가 가장 많은 you로 예측한다.

  • Find misspelling

세 단어들로 2-gram 개수를 세준다.

qwal을 입력받게 된다면 qual로 추천해줄 수 있다.

'Deep Learning > NLP' 카테고리의 다른 글

[NLP] 자연어 유사도 측정  (0) 2021.07.19
[NLP] TF-IDF  (0) 2021.07.19
[NLP] Bag of words  (0) 2021.07.19