pytorch를 이용한 자연어입문
-
Chapter_3_요약_Diving-Deep-into-Supervised-Training.ipynb-relu,sigmoidpytorch를 이용한 자연어입문 2024. 9. 18. 15:47
4시간 더하면 한책끝나고6시간 더하면 끝남 퍼셉트론 뉴럴네트워크 (신경망)의 기본구성요소. 뇌의 뉴런을 본떠 만들었다. 활성화 함수 쓰는이유?-> 비선형함수를 모방하기 위해서선형변환은 아무리 여러번 해도 선형변환 하나로 취급할수 있기때문에 의미가 없다. 아래그림)chain rule 를 적용하면 기울기가 1/4보다 작거나 같은값 x 1/4 x 곱해져서 0.0000.... 아주작은값이 나와서 gradient 가 소실된다. -> 그래서 relu함수를 쓴다. 아래그림) gradient 소실을 막기위해서 다른 ReLU, PreLu.. 같은 비선형함수(activation function)를 쓴다.
-
Chapter2_요약_basic_nlp.ipynbpytorch를 이용한 자연어입문 2024. 9. 18. 15:41
기초적인 용어들corpus(말뭉치): 문서를 대량으로 모아놓은것. 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합token: 텍스트를 나누는 단위tokenization(토큰화): 텍스트를 토큰으로 나누는 과정 # n-gramn-gram: 연속된 token 시퀀스. 길이 n의 연속된 토큰 시퀀스 unigram: 토큰 1개 bi-gram: 토큰 2개 품사태깅품사로 분류하는것(명사, 부사, 형용사...)
-
Chapter01_ PyTorch_NLP_Basics_1.ipynbpytorch를 이용한 자연어입문 2024. 9. 18. 14:53
TF-IDF 표현 Term-Frequency-Inverse-Document-Frequency TF = Term-Frequency 단어의 등장횟수 = the, a -> 자주등장해도 의미가 없어서 IDF = Inverse-Document-Frequency 그 수치값을 깎자는 의미 여러 문서에서 공통적으로 나오는 단어들을 수치를 낮추기 위해서 쓰는것 N : 전체 문서 개수 Nw: 단어 w를 포함한 문서의 개수 N_the = 10 IDF(the) = log(11/11) + 1 N_apple = 2 IDF(apple) = log(11/3) + 1 모든 문서에 등장 (즉, Nw=N )이면 IDF(w)=0 반대로 한 문서에만 등장하면 IDF(w)=logN 아래그림 출처: https://wikidocs.ne..
-
8-1_요약_(attention_ RNN을 이용한 sequence to sequence의 문제)_ NMT_No_Sampling.ipynbpytorch를 이용한 자연어입문 2024. 6. 21. 15:02
출처 : 파이토치를 이용한 자연어 처리 https://product.kyobobook.co.kr/detail/S000001810395 Q1. attention 왜 나왔는지sequence to sequence(encoder에서 vector통해 decoder나옴)의 Bottle neck문제(문장의 길이가 긴데 다 담지 못하는 문제)RNN 장기의존성문제, gradient vanishing문제를 해결해보려 나온게 attention Q2. Qurery, key, valuequery 는 decoder에서 나오는 벡터key, value 는 encoder에서 나온 벡터 (모든시점의 h) ---------------------------------------------------------------------..
-
-
7_3_요약_Model1_Unconditioned_Surname_Generation.ipynbpytorch를 이용한 자연어입문 2024. 5. 31. 15:31
https://www.yes24.com/Product/Goods/101874047출처 파이토치로 배우는 자연어 처리 - 예스24쉽고 빠르게 익히는 자연어 처리 입문 가이드북자연어 처리(NLP)는 인공지능이 지닌 무한한 능력을 이용해 애플 시리, 아마존 알렉사, 구글 번역 등과 같은 제품을 탄생시켰다. 복잡하고 어렵게www.yes24.com RNN (vanila- 아무것도 없는 상태) - Long Term Dependency - Gradient Vanishing, Gradient Exploding RNN의 일종이고 vanaila RNN보다 개선된 RNN LSTM, GRU(조경현) - Gate -> 일부는 합치지 않고 그냥 흘려보냄 -> 얼마나 흘려보낼지 게이트가 결정