one-hot2 원-핫 인코딩(One-Hot Encoding) 이란? 원-핫 인코딩(One-Hot Encoding)이란? 컴퓨터가 이해하기 쉽도록 자연어 처리를 위한 하나의 기법인 원핫 인코딩은 단어들의 크기를 벡터의 차원으로하고 표현하고 싶은 단어의 인덱스에 1을 부여하고, 다른 인데스에 0을 부여하여 단어를 벡터로 표현하는 방식(원-핫 벡터)이다. 원핫인코딩은 간단한 방법이지만 단어들 간 유사도도 구하기 어렵다(무조건 0이나온다) 라는 단점이 있다. 때문에 단어간 유사도를 구할 때에는 코사인 유사도를 사용한다. 또한 표현해야할 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 늘어난다(차원이 증가한다)라는 단점이 있기에 저장 공간 측면에서는 굉장이 비효율적이다. 때문에 word2vec을 이용한다. 아래의 예시를 보고 이해하자 2022. 5. 6. One-hot encoding과 Ridge Regression 더보기 날짜는 의미 없으므로 앞으로 제목에 날짜를 안적기로한다. 의미가 있는건 내가 오늘 뭘 배우고 뭘 이해했는지 기록을 위한거라 생각한다. 원-핫인코딩 (One - hot encoding) 인간과 컴퓨터는 데이터를 바라보는 형태가 다르기 때문에 이를 번역(?)하는 과정이 필요하다. 컴퓨터는 모든 데이터를 숫자를 바탕으로 이해하기에 컴퓨터가 문자를 이해할 수 있는 숫자로 바꾸며 이러한 결과를 임베딩이라고 한다. 원-핫 인코딩은 수많은 데이터를 0과 한개의 1의 값으로 데이터를 구별하는 인코딩이다. 표현하고자 하는 인덱스에 1, 다른 인덱스에는 0을 부여하는 벡터 표현방식이며 이렇게 표하는 것을 원-핫 백터라고 부른다고 한다. 범주형(Catagorical) 자료를 다루기 위하여 사용한다. 범주형 자료란 ?.. 2022. 2. 24. 이전 1 다음