RNN and Attention

practice_인공지능,머신러닝 2024. 10. 16. 06:54

출처 : 파이토치를 이용한 자연어 처리 https://product.kyobobook.co.kr/detail/S000001810395

Q1. attention 왜 나왔는지

sequence to sequence(encoder에서 vector통해 decoder나옴)의 Bottle neck문제(문장의 길이가 긴데 다 담지 못하는 문제)

RNN 장기의존성문제, gradient vanishing문제를 해결해보려 나온게 attention

Q2. Qurery, key, value

query 는 decoder에서 나오는 벡터

key, value 는 encoder에서 나온 벡터 (모든시점의 h)

-------------------------------------------------------------------------

Key-Value 자료형에 대한 이해를 가지고 어텐션 함수에 대해서 설명해보겠습니다.

어텐션을 함수로 표현하면 주로 다음과 같이 표현됩니다.
Attention(Q, K, V) = Attention Value

어텐션 함수는 주어진 '쿼리(Query)'에 대해서 모든 '키(Key)'와의 유사도를 각각 구합니다. 그리고 구해낸 이 유사도를 키와 맵핑되어있는 각각의 '값(Value)'에 반영해줍니다. 그리고 유사도가 반영된 '값(Value)'을 모두 더해서 리턴합니다. 여기서는 이를 어텐션 값(Attention Value)이라고 하겠습니다.

지금부터 배우게 되는 seq2seq + 어텐션 모델에서 Q, K, V에 해당되는 각각의 Query, Keys, Values는 각각 다음과 같습니다.

Q = Query : t 시점의 디코더 셀에서의 은닉 상태
K = Keys : 모든 시점의 인코더 셀의 은닉 상태들
V = Values : 모든 시점의 인코더 셀의 은닉 상태들

============================================================

RNN을 이용한 sequence to sequence의 문제

Summary

연속된 data = sequence

encoder to decoder에서

가운데에 고정된 vector(예, 128차원)를 통해 decoder로 나가서

vector는 고정된 사이즈라 문장의 길이에 영향을 받지 않는 문제가 있다.

고정길이 vector

-Bottle neck problem (문장은 엄청긴데 적은데 담을수 있냐는 문제)

-Gradient Vanishing 문제 (Rnn이라서)

-Long Term Dependency

아래그림

나는 --> I

n개의 vocab size중 1개가 crossentropy를 통해 loss값을 줄여나가면서 학습된다.

W x [at : st]concat = output

아래그림) W x [at : st]concat = output 해서 각 decoder의 timestep에서 나온 단어

아래그림)

teacher forcing

학습중 decoder에 정답을 입력으로 제공

https://wikidocs.net/22893

15-01 어텐션 메커니즘 (Attention Mechanism)

앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 …

wikidocs.net

'practice_인공지능,머신러닝' 카테고리의 다른 글

선형회귀, 분류 차이점 (1)	2024.10.19
18.하노이의 탑 (0)	2024.10.17
RNN (1)	2024.10.16
CNN (1)	2024.10.16
04.Overfitting,Dropout,Weight Decay,Batch Normalization (8)	2024.10.16

ABOUT ME

자연어(NLP) 자연어(NLP)

Q1. attention 왜 나왔는지

Q2. Qurery, key, value

RNN을 이용한 sequence to sequence의 문제

Summary

'practice_인공지능,머신러닝' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Q1. attention 왜 나왔는지

Q2. Qurery, key, value

RNN을 이용한 sequence to sequence의 문제

Summary

'practice_인공지능,머신러닝' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바