6-1. Rnn

practice_인공지능,머신러닝 2024. 10. 22. 12:43

RNN 개념

sequence 를 모델링 할수 있는 neural network 개념

장점: 길이가 10 -> 50 문장 변동될때 가변길이 sequence를 모델링할수있다.

10-> 10, 50-> 10

but CNN은 어려움

cnn은 입력되는 이미지 크기가 달라지면 출력되는 이미지 크기도 달라짐

예) 출력되는 hidden vector 가 같다.

문장길이에 상관없이 고정되는 hidden vector -> 마지막 ht 사용해서 입력되는 문장의 길이가 상관없다.

단점: gradient vasnishing, exploding, longterm dependency

극복방안: LSTM(long short term memory)

cell state를 추가, cell gate -> gradient vaninshing 문제를 조금 해결할수 있었지만, 근본적

극복은 어려웠음.

아래그림) old state(h t-1)에다, 현재 time step의 xt 의 입력값을 넣으면, new state인 ht가 나옴

아래그림) old state(h t-1)에다, 현재 time step의 xt 의 입력값을 넣으면, new state

tanh -> activation function

y 출력값 나오는 경로

아래그림 ) RNN에서의 backpropagation ( chain rule 로서 중간중간 가중치가 영향을 )준다.

아래그림) vanishing 문제

- gradient 계산할때 곱하는 항이 많아서 gradient 값이 거의 0에

가까워 지거나 , 아니면 너무 큰값으로 exploding

아래그림) chain rule로 곱하는 항이 많아져서 gradient vanishing 된다.

gradient exploding

exploding 되면 가중치 업데이트가 많이되서 너무 많이 이동 ->

clipping (10이상이면 10으로 끊어줌)

RNN 단점

gradient descent, long term dependency -> LSTM(long short term memory)-> long,short term memory

단점극복: cell state(ht = short term) 추가, 게이트 추가( Ct-1 -> Ct): long term memory

RNN의 단점을 Cell state gate로 해결(long term dependency문제) -> LSTM

GRU (조금 성능좋아진것)

자연어(NLP) 자연어(NLP)