728x90
Transformer란?
- 기존의 RNN은 데이터가 입력되어지는 순서대로 들어오기에 때문에 처리를 해야하는 시퀀스가 많아질수록 연산 시간이 점점 길어졌다.
- Transformer 모델은 토큰을 동시에 입력받아 병렬 연산이 가능하다.
- 즉 기존적인 RNN과는 다르게 ATTENTION을 병렬화 하여 뛰어난 성능을 보여주는 모델이다.
- 아래 그림으로 기존 모델과 Transfomer의 모델의 차이점을 확인해보자.
- 기존의 모델에서는 입력 순서대로 토큰이 들어오기에 토큰에 대한 위치 정보가 필요없었다.
- 그렇다면 Transfomer에서 입력이 병렬적으로 들어온다면, 어디에 어떤 토큰이 있는지 알 수 있는 것일까? 이 질문에 대한 해답은 트랜스포머 모델의 기본적인 구조에서 확인해 볼 수 있다.
- 빨갛게 색칠되어 있는 Positional Encodin(위치 인코딩)을 통해 위치정보를 벡터로 만들어 컴퓨터가 토큰의 위치를 파악할 수 있도록 정보를 담는다.
Self Attention 이란?
트랜스포머의 주요 메커니즘이며 문장 자신에 대해 어텐션 메커니즘을 적용한다.
어텐션만으로도 단어의 중요성을 찾아내서 효율적인 계산을 이루어 낸것이 트랜스포머이다.
'AI > 딥러닝' 카테고리의 다른 글
합성곱 신경망(Convolutional Neural Network, CNN)이란? (0) | 2022.05.16 |
---|---|
소프트맥스(Softmax) 함수란? (0) | 2022.05.15 |
장단기 기억망(Long-short Term Memory, LSTM)이란? (0) | 2022.05.14 |
순환 신경망(Recurrent Neural Network)이란? (0) | 2022.05.13 |
언어 모델(Language Model),통계적 언어 모델(Statistical Language Model, SLM)이란? (0) | 2022.05.13 |
댓글