본문 바로가기
AI/딥러닝

원-핫 인코딩(One-Hot Encoding) 이란?

by 남오공 2022. 5. 6.
728x90

원-핫 인코딩(One-Hot Encoding)이란?

  • 컴퓨터가 이해하기 쉽도록 자연어 처리를 위한 하나의 기법인 원핫 인코딩은 단어들의 크기를 벡터의 차원으로하고 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인데스에 0을 부여하여 단어를 벡터로 표현하는 방식(원-핫 벡터)이다.
  • 원핫인코딩은 간단한 방법이지만 단어들 간 유사도도 구하기 어렵다(무조건 0이나온다) 라는 단점이 있다. 때문에  단어간 유사도를 구할 때에는 코사인 유사도를 사용한다.
  • 또한 표현해야할 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 늘어난다(차원이 증가한다)라는 단점이 있기에 저장 공간 측면에서는 굉장이 비효율적이다. 때문에 word2vec을 이용한다.
  • 아래의 예시를 보고 이해하자 

 

댓글