ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 6-1. Rnn
    practice_인공지능,머신러닝 2024. 10. 22. 12:43

    RNN 개념

    sequence 를 모델링 할수 있는 neural network 개념

     

    장점: 길이가 10 -> 50 문장 변동될때 가변길이 sequence를 모델링할수있다.

    10-> 10,  50-> 10

           but CNN은 어려움

    cnn은 입력되는 이미지 크기가 달라지면 출력되는 이미지 크기도 달라짐

     

    예) 출력되는 hidden vector 가 같다.

    문장길이에 상관없이 고정되는 hidden vector -> 마지막 ht 사용해서 입력되는 문장의 길이가 상관없다.

     

    단점: gradient vasnishing, exploding, longterm dependency

    극복방안: LSTM(long short term memory)

    cell state를 추가,  cell gate -> gradient vaninshing 문제를 조금 해결할수 있었지만, 근본적 

    극복은 어려웠음.

     

     

     

    아래그림) old state(h t-1)에다, 현재 time step의  xt 의 입력값을 넣으면, new state인  ht가 나옴

     

     

    아래그림) old state(h t-1)에다, 현재 time step의  xt 의 입력값을 넣으면, new state

     

    tanh -> activation function

     

     y 출력값 나오는 경로

     

     

     

     

    아래그림 ) RNN에서의 backpropagation ( chain rule 로서 중간중간 가중치가 영향을 )준다.

     

    아래그림) vanishing 문제

    - gradient 계산할때 곱하는 항이 많아서 gradient 값이 거의 0에 

    가까워 지거나 , 아니면 너무 큰값으로 exploding

     

    아래그림) chain rule로 곱하는 항이 많아져서  gradient vanishing 된다.

    gradient exploding

     

    exploding 되면 가중치 업데이트가 많이되서 너무 많이 이동 ->

    clipping (10이상이면 10으로 끊어줌)

     

     

    RNN 단점

    gradient descent, long term dependency -> LSTM(long short term memory)-> long,short term memory

     

    단점극복: cell state(ht = short term) 추가,  게이트 추가( Ct-1 -> Ct): long term memory 

    RNN의 단점을 Cell state gate로 해결(long term dependency문제) -> LSTM

     

    GRU (조금 성능좋아진것)

     

    'practice_인공지능,머신러닝' 카테고리의 다른 글

    20.activation, relu, sigmoid  (0) 2024.10.24
    6-2. attention  (0) 2024.10.22
    선형회귀, 분류 차이점  (1) 2024.10.19
    18.하노이의 탑  (0) 2024.10.17
    RNN and Attention  (0) 2024.10.16
Designed by Tistory.