practice_인공지능,머신러닝
-
20.activation, relu, sigmoidpractice_인공지능,머신러닝 2024. 10. 24. 11:47
4시간 더하면 한책끝나고6시간 더하면 끝남 퍼셉트론 뉴럴네트워크 (신경망)의 기본구성요소. 뇌의 뉴런을 본떠 만들었다. 활성화 함수 쓰는이유?-> 비선형함수를 모방하기 위해서선형변환은 아무리 여러번 해도 선형변환 하나로 취급할수 있기때문에 의미가 없다. 아래그림)chain rule 를 적용하면 기울기가 1/4보다 작거나 같은값 x 1/4 x 곱해져서 0.0000.... 아주작은값이 나와서 sigmoide에서는 gradient 가 소실된다. -> 그래서 relu함수를 쓴다. 아래그림) gradient 소실을 막기위해서 다른 ReLU, PreLu.. 같은 비선형함수(activation function)를 쓴다. 기타 activation 함수 활성화 함수의 역할:신경망에 비선형성을 부여하여, 선형 모델..
-
6-2. attentionpractice_인공지능,머신러닝 2024. 10. 22. 13:31
attention 은 rnn 으로 sequence 2 sequence에서 bottle neck problem(시간관계없고, 어떤문장이든 길어지던간에 고정길이 ht에 정장한다.) 을 해결하기 위해 나옴data의 어떤 부분에 집중 attention해서 출력을 계산해야할지 자동으로 학습하는기법장점: 중요한부분에 집중해서 계산(마지막 ht만 본게 아니라 여러 h를 보면서 그중 어디 집중할지 보니,정보손실이 없다) bottle nectk problem: final ht에 너무 많은 정보를 넣어서 병목현상문제 발생 해결점 -> attention mechanisam입력문제를 다 보지 않고 집중해서 몇몇만 봄 attention -> 입력값, 출력값을 잘 나열 -> alignment로 부름 (without sup..
-
6-1. Rnnpractice_인공지능,머신러닝 2024. 10. 22. 12:43
RNN 개념sequence 를 모델링 할수 있는 neural network 개념 장점: 길이가 10 -> 50 문장 변동될때 가변길이 sequence를 모델링할수있다.10-> 10, 50-> 10 but CNN은 어려움cnn은 입력되는 이미지 크기가 달라지면 출력되는 이미지 크기도 달라짐 예) 출력되는 hidden vector 가 같다.문장길이에 상관없이 고정되는 hidden vector -> 마지막 ht 사용해서 입력되는 문장의 길이가 상관없다. 단점: gradient vasnishing, exploding, longterm dependency극복방안: LSTM(long short term memory)cell state를 추가, cell gate -> gradient vaninshing..
-
선형회귀, 분류 차이점practice_인공지능,머신러닝 2024. 10. 19. 13:45
선형 회귀(Linear Regression)와 이진 분류(Binary Classification)는 모두 머신러닝의 중요한 개념이지만, 문제를 해결하는 방식과 목표가 다릅니다. 아래에서 그 차이를 설명해드릴게요. 선형회귀선으로 추세선을 그음선형 회귀(Linear Regression)와 이진 분류(Binary Classification)는 모두 머신러닝의 중요한 개념이지만, 문제를 해결하는 방식과 목표가 다릅니다. 아래에서 그 차이를 설명해드릴게요. 선형 회귀(linear regression)는 종속 변수(예: 가격, 수익)와 하나 이상의 독립 변수(예: 시간, 광고비) 간의 관계를 직선의 형태로 모델링하는 통계적 방법입니다 선형회귀 선으로 추세선을 그음 양극단에 있는 부모 아래에서, 똑같이 극단적인 자..
-
18.하노이의 탑practice_인공지능,머신러닝 2024. 10. 17. 13:40
답변: 하노이의 탑 문제는 재귀함수를 사용해 풀수있는 문제로 세 개의 기둥과 다수의 원반을 사용하여 원반을 이동시키는 문제입니다.(예, A-> C위치로 원판 3개이동) 재귀적 해결 방법은 원반을 n-1개를 A-> B위치로 이동한 후 가장 큰 원반 A-> C위치로 이동하고, 다시 n-1개 원반을 B->C로 이동하는 방식으로 해결합니다. 관련 개념: Tower of Hanoi (하노이의 탑): 원반을 세 개의 기둥 사이에서 원판을 이동시키는 문제입니다. Recursion (재귀): 문제를 더 작은 하위 문제로 나누어 해결하는 방법입니다. Base Case (기저 사례-제일마지막 1개까지진행): 재귀 호출을 종료하는 조건으로 이 하노이탑에서는 마지막 하나원판까지 옮기는것을 기저사례라한다.
-
RNN and Attentionpractice_인공지능,머신러닝 2024. 10. 16. 06:54
출처 : 파이토치를 이용한 자연어 처리 https://product.kyobobook.co.kr/detail/S000001810395 Q1. attention 왜 나왔는지sequence to sequence(encoder에서 vector통해 decoder나옴)의 Bottle neck문제(문장의 길이가 긴데 다 담지 못하는 문제)RNN 장기의존성문제, gradient vanishing문제를 해결해보려 나온게 attention Q2. Qurery, key, valuequery 는 decoder에서 나오는 벡터key, value 는 encoder에서 나온 벡터 (모든시점의 h) ---------------------------------------------------------------------..
-
RNNpractice_인공지능,머신러닝 2024. 10. 16. 06:53
RNN순차적 데이터 (Sequential data)Gradient vanishing - 로스를 w에 대해 미분했을때 곲하는값이 많아져서 gradient값(기울기 = 미분) 이 거의 0된데 Long term dependency문장 길이가 길어지면 초반 내용을 기억능력이 떨어짐-> 해결책 -> bidirectional RNN -> 좋은해결책아님장기 의존성(Long-term dependencies)은 모델, 시스템 또는 알고리즘이 입력 시퀀스의 초반부에서 중요한 정보를 시간적 또는 맥락적으로 먼 거리까지 기억하고 활용하는 능력을 말합니다. 이는 여러 머신러닝 및 자연어 처리(NLP) 작업에서 매우 중요한 개념으로, 특히 문장이나 문서 내에서 멀리 떨어진 단어들이나 개념들 간의 관계를 이해하는 데 필요합니다...
-
CNNpractice_인공지능,머신러닝 2024. 10. 16. 06:51
CNN (Convolution Neural Network)CNN : Kernel 로 stride 해주면서 연산하는 Neural Network (convoultion연산 - 내적x)사용이유: 순차적 데이터(이미지 특히) sequential data에 처리하기 좋아서 -> 이유: local feture를 잘 캐치함. 아래그림)모서리에 흰색왼쪽 빨간네모등 전체적 x는 다르지만 위치직 특징( local feature)를 잘뽑아낸다. 출처 https://velog.io/@skkumin/CNNConvolution-Neural-Network-%EC%9D%B4%EB%A1%A0 CNN(Convolution Neural Network) 이론컨브넷(convnet)이라고도 불리는 합성곱 신경망(..