본문 바로가기
스터디

[AI] Deep Learning 딥러닝 기본 이해_Attention Mechanism

by onecosm 2023. 6. 17.
반응형

 

 

 

 

 

 

 

 

Deep Learning 딥러닝 기본 이해

 

 

Layer Level Model Level
Manifold Learning(매니폴드 학습) Representation Learning(표현 학습)
Transfer Learning(전이 학습) Meta Learning(메타 학습)
Semi Supervised Learning(반지도 학습) Self Supervised Learning(자기 지도 학습)
Transformer(트랜스포머) Attention Mechanism(어텐션 메커니즘)

 

 


 

 

Attention Mechanism(어텐션 메커니즘)

 

기본 아이디어

디코더에서 단어를 예측하는 시점마다(time step) 인코더에서 전체 문장을 다시 한번 본다는 것입니다. 

단, 전체 문장을 전부 동일한 비율로 보는 것이 아니라, 연관된 부분을 집중해서 보는 것입니다. 그래서 집중(Aattention) 메커니즘이고, 결국 Task를 더 잘 풀기 위해 제안되었습니다.

 

 

 

용어

1. Attention Scroe

 

 

디코딩할 때, 인코더의 어느 입력 시간 스텝에 집중할 것인지를 점수화한 것으로, 이를 점수화해주는 함수를 Alignment Model라고 합니다.

 

 

2. Attention distribution

 

 

Attention Score를 가지고 softmax 함수를 통해 Attention distribution을 만들어내게 되며, 이렇게 계산된 각 0 ~ 1 사이의 값이 입력 시간 스텝에 대한 가중치, 즉 “시간의 가중치” 가 됩니다.

 

 

3. Attention output

 

 

 

"시간의 가중치"를 가지고 입력 은닉 상태들의 가중 합을 계산하고, 최종적으로 하나의 벡터를 계산하여 도출 된 것을 Attention Output라고 합니다. 이 벡터는 각 디코딩 시간 스텝마다 다르며, 기존에 Fixed-Length Vector의 문제점을 해결하였습니다.

 

 

4. Decoder Hidden State

 

 

Attention Output과 이전 디코더의 Hidden State, Output을 이용하여 다음 시점의 디코더의 Hidden State 출력합니다.

 

 

 

반응형

 

 

 

활용 예시

GPT
(Generative Pre-trained Transformer)
 BERT
(
Bidirectional Encoder Representation Transformer)

 

 

 

 

반응형

댓글