onehotencodeing1 원-핫 인코딩(One-Hot Encoding) 이란? 원-핫 인코딩(One-Hot Encoding)이란? 컴퓨터가 이해하기 쉽도록 자연어 처리를 위한 하나의 기법인 원핫 인코딩은 단어들의 크기를 벡터의 차원으로하고 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인데스에 0을 부여하여 단어를 벡터로 표현하는 방식(원-핫 벡터)이다. 원핫인코딩은 간단한 방법이지만 단어들 간 유사도도 구하기 어렵다(무조건 0이나온다) 라는 단점이 있다. 때문에 단어간 유사도를 구할 때에는 코사인 유사도를 사용한다. 또한 표현해야할 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 늘어난다(차원이 증가한다)라는 단점이 있기에 저장 공간 측면에서는 굉장이 비효율적이다. 때문에 word2vec을 이용한다. 아래의 예시를 보고 이해하자 2022. 5. 6. 이전 1 다음