본문 바로가기
AI/딥러닝

Transfomer란 무엇일까?

by 남오공 2022. 5. 15.
728x90

Transformer란?

  • 기존의 RNN은 데이터가 입력되어지는 순서대로 들어오기에 때문에 처리를 해야하는 시퀀스가 많아질수록 연산 시간이 점점 길어졌다. 
  • Transformer 모델은 토큰을 동시에 입력받아 병렬 연산이 가능하다.
  • 즉 기존적인 RNN과는 다르게 ATTENTION을 병렬화 하여 뛰어난 성능을 보여주는 모델이다.
  • 아래 그림으로 기존 모델과 Transfomer의 모델의 차이점을 확인해보자.

기존의 인코더 디코더
트랜스포머 모델의 인코더와 디코더

  • 기존의 모델에서는 입력 순서대로 토큰이 들어오기에 토큰에 대한 위치 정보가 필요없었다.
  • 그렇다면 Transfomer에서 입력이 병렬적으로 들어온다면, 어디에 어떤 토큰이 있는지 알 수 있는 것일까? 이 질문에 대한 해답은 트랜스포머 모델의 기본적인 구조에서 확인해 볼 수 있다. 

트랜스포머 모델의 모형

  • 빨갛게 색칠되어 있는  Positional Encodin(위치 인코딩)을 통해 위치정보를 벡터로 만들어 컴퓨터가 토큰의 위치를 파악할 수 있도록 정보를 담는다.

 

Self Attention 이란?

트랜스포머의 주요 메커니즘이며 문장 자신에 대해 어텐션 메커니즘을 적용한다.

 

 

 

 

어텐션만으로도 단어의 중요성을 찾아내서 효율적인 계산을 이루어 낸것이 트랜스포머이다.

 

 

 

댓글