얼렁뚱땅 Data Science

얼렁뚱땅 스며드는 Data Science

자연어처리 4

자연어 유사도 측정 Euclidean Distance 'princess', 'prince', 'man'이라는 단어들이 벡터로 표현되어 있을 때, 'man'과의 거리를 euclidean distance로 계산해보면 d1이 d2보다 짧아 'man'은 'prince'와 더 유사하다고 볼 수 있다. Cosine Similarity 'money money laudering'은 euclidean distance로 거리를 구했을 떼 'laundering'이라는 단어에 더 유사하다는 결과가 나온다. 실제로는 'money'가 2번, 'laundering'이 한번이므로 'money money money money money money'와 더 유사하다는 결과가 옳다. 이러한 문제는 벡터 특성 때문에 발생한다. 단어가 여러번..

Deep Learning/NLP 2021.07.19

[NLP] TF-IDF

TF-IDF (Term Frequency * Inverse Document Frequency) 각 단어와 문서 연관성을 확인하기 위해 사용함. 여기에서 말하는 연관성은 문장속 각 단어별로 문서에 대한 정보를 얼마나 갖고 있는 지를 수치로 나타낸 것이다. Term Frequency : 문서에서 단어가 몇 번 출현했는 지 TF는 만약 단어가 문서 안에서 여러번 나타났다면 이 단어는 다른 단어들보다 문서의 연관성이 높다는 가정을 따른다. 하지만, TF score는 큰 단점이 있다. 'a', 'the'와 같은 관사가 문서에서 자주 등장할 수 밖에 없으므로 문서의 연관성을 잘 나타내지 못하는 이들의 TF score가 높게 나온다. 따라서 TF score로만 단어의 연관성을 판단하기에는 어려움이 있다. Invers..

Deep Learning/NLP 2021.07.19

[NLP] n-gram

n-gram 연속적으로 n개의 token (words, character, ...)로 이뤄진 것 n-gram을 사용하는 이유 Overcome the bag of words' drawback : 단어의 순서가 무시된다는 문제 극복 예제 : machine learning is fun and is not boring bag of word에 위 문장을 넣었을 때 'not'이 어떤 단어에 속하는지 모르게 된다. Next word prediction Find misspelling qwal을 입력받게 된다면 qual로 추천해줄 수 있다.

Deep Learning/NLP 2021.07.19

[NLP] Bag of words

Bag of Words 하나의 문장을 하나의 벡터로 표현한 방법 중 하나 Bag of Words는 머신러닝 모델의 입력값으로 사용이 가능하다. 머신러닝 모델은 string을 입력값으로 받지 못하므로 bag of words로 string을 vector로 변환시킨다. 단점 sparsity : 실제 사전에는 백만개 이상의 단어들이 존재하기 때문에 문장들을 bag of words로 표현했을 때, vector의 크기가 커지는 반면, 0이 무수히 많아 1이 sparse해진다. 이를 머신러닝 모델에 입력값으로 쓰일때, 연산에 많은 시간과 메모리를 차지하게 된다. Frequent words have big power : the, a 와 같은 관사들이 높은 빈도 수를 보이면 이들의 파워가 매우 세진다. 하지만 실제 데이..

Deep Learning/NLP 2021.07.19

얼렁뚱땅 스며드는 Data Science

신고결과 받기, 문자열, recursive, Roman to Integer, level1, 성격유형검사하기, union_find, 카카오, 정렬, nlp, 리모트저장소, 자료구조, 코딩테스트, leetcode, 자연어처리, 태블로무료강의, 알고리즘, sum of square numbers, 프로그래머스, Python,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

자연어처리 4

티스토리툴바