Chapter2_요약_basic_nlp.ipynb

pytorch를 이용한 자연어입문 2024. 9. 18. 15:41

기초적인 용어들

corpus(말뭉치): 문서를 대량으로 모아놓은것. 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합
token: 텍스트를 나누는 단위
tokenization(토큰화): 텍스트를 토큰으로 나누는 과정

# n-gram

n-gram: 연속된 token 시퀀스.   길이 n의 연속된 토큰 시퀀스  
unigram: 토큰 1개  
bi-gram: 토큰 2개

품사태깅

품사로 분류하는것(명사, 부사, 형용사...)

Chapter_3_요약_Diving-Deep-into-Supervised-Training.ipynb-relu,sigmoid (0)	2024.09.18
Chapter01_ PyTorch_NLP_Basics_1.ipynb (0)	2024.09.18
8-2_요약_NMT_No_Sampling (0)	2024.06.28
8-1_요약_(attention_ RNN을 이용한 sequence to sequence의 문제)_ NMT_No_Sampling.ipynb (1)	2024.06.21
8-0_요약_PackedSequence_example (0)	2024.06.14

자연어(NLP) 자연어(NLP)