-
6-1. Rnnpractice_인공지능,머신러닝 2024. 10. 22. 12:43
RNN 개념
sequence 를 모델링 할수 있는 neural network 개념
장점: 길이가 10 -> 50 문장 변동될때 가변길이 sequence를 모델링할수있다.
10-> 10, 50-> 10
but CNN은 어려움
cnn은 입력되는 이미지 크기가 달라지면 출력되는 이미지 크기도 달라짐
예) 출력되는 hidden vector 가 같다.
문장길이에 상관없이 고정되는 hidden vector -> 마지막 ht 사용해서 입력되는 문장의 길이가 상관없다.
단점: gradient vasnishing, exploding, longterm dependency
극복방안: LSTM(long short term memory)
cell state를 추가, cell gate -> gradient vaninshing 문제를 조금 해결할수 있었지만, 근본적
극복은 어려웠음.
아래그림) old state(h t-1)에다, 현재 time step의 xt 의 입력값을 넣으면, new state인 ht가 나옴
아래그림) old state(h t-1)에다, 현재 time step의 xt 의 입력값을 넣으면, new state
tanh -> activation function
y 출력값 나오는 경로
아래그림 ) RNN에서의 backpropagation ( chain rule 로서 중간중간 가중치가 영향을 )준다.
아래그림) vanishing 문제
- gradient 계산할때 곱하는 항이 많아서 gradient 값이 거의 0에
가까워 지거나 , 아니면 너무 큰값으로 exploding
아래그림) chain rule로 곱하는 항이 많아져서 gradient vanishing 된다.
gradient exploding
exploding 되면 가중치 업데이트가 많이되서 너무 많이 이동 ->
clipping (10이상이면 10으로 끊어줌)
RNN 단점
gradient descent, long term dependency -> LSTM(long short term memory)-> long,short term memory
단점극복: cell state(ht = short term) 추가, 게이트 추가( Ct-1 -> Ct): long term memory
RNN의 단점을 Cell state gate로 해결(long term dependency문제) -> LSTM
GRU (조금 성능좋아진것)
'practice_인공지능,머신러닝' 카테고리의 다른 글
20.activation, relu, sigmoid (0) 2024.10.24 6-2. attention (0) 2024.10.22 선형회귀, 분류 차이점 (1) 2024.10.19 18.하노이의 탑 (0) 2024.10.17 RNN and Attention (0) 2024.10.16