pytorch를 이용한 자연어입문

Chapter2_요약_basic_nlp.ipynb

네이쳐2024 2024. 9. 18. 15:41

 

기초적인 용어들

corpus(말뭉치): 문서를 대량으로 모아놓은것. 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합
token: 텍스트를 나누는 단위
tokenization(토큰화): 텍스트를 토큰으로 나누는 과정

 

# n-gram

n-gram: 연속된 token 시퀀스.   길이 n의 연속된 토큰 시퀀스  
unigram: 토큰 1개  
bi-gram: 토큰 2개

 

품사태깅

품사로 분류하는것(명사, 부사, 형용사...)