728x90
원-핫 인코딩(One-Hot Encoding)이란?
- 컴퓨터가 이해하기 쉽도록 자연어 처리를 위한 하나의 기법인 원핫 인코딩은 단어들의 크기를 벡터의 차원으로하고 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인데스에 0을 부여하여 단어를 벡터로 표현하는 방식(원-핫 벡터)이다.
- 원핫인코딩은 간단한 방법이지만 단어들 간 유사도도 구하기 어렵다(무조건 0이나온다) 라는 단점이 있다. 때문에 단어간 유사도를 구할 때에는 코사인 유사도를 사용한다.
- 또한 표현해야할 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 늘어난다(차원이 증가한다)라는 단점이 있기에 저장 공간 측면에서는 굉장이 비효율적이다. 때문에 word2vec을 이용한다.
- 아래의 예시를 보고 이해하자
'AI > 딥러닝' 카테고리의 다른 글
언어 모델(Language Model),통계적 언어 모델(Statistical Language Model, SLM)이란? (0) | 2022.05.13 |
---|---|
Word2Vec(Word to Vector)란 무엇일까? (0) | 2022.05.11 |
자연어 처리(Natural Language Processing)와 토큰화(tokenization)란? (0) | 2022.05.04 |
경사하강법(Gradient Descent)이란? (0) | 2022.04.29 |
신경망이 학습되어지는 메커니즘(순전파,역전파,경사하강법)이란? (0) | 2022.04.29 |
댓글