practice_최신트랜드 논문
-
RoBERTapractice_최신트랜드 논문 2024. 10. 12. 16:48
Q. RoBERTa (A Robustly Optimized BERT Pretraining Approach) - 일반화가 잘되었다는 모델A. Bert 강화버전학습데이터 늘리고, 학습시간늘림.NSP빼고 Dynamic masking써서 기존 Bert보다 많이 올렸음 XLNet 다음에 나온 논문일반화가 잘되었다는 모델Bert를 잘 훈련시키겠다.hyperparameter를 바꿔가며 Bert를 더 훈련시킴Bert가 학습이 충분히 안되었다. 기존 Bert에 비해서 10배정도 Data를 더 많이 썼다.Training을 더 오래돌림(data가 많아서)Batch size 를 키움Bert = MLM(masked langauge model) + NSP(next sentence prediction)인데 RoBERTa = MLM..
-
Bert 이후 모델 (Transfomer-XL, GPT2, XLNet)practice_최신트랜드 논문 2024. 10. 12. 13:40
Q. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" 논문의 주요 기여와 BERT 모델의 작동 방식이 뭔가요 A. BERT는 Bidirectional Context를 고려한, transformer 모델을 만들었다. 사전학습 모델로써 masked language modeling, next sentence prediction 두작업을 이용해서,사전학습을 진행했다. 이렇게 해서 다양한 task에서 좋은 성능을 보여줬다. Q: "XLNet: Generalized Autoregressive Pretraining for Language Understanding" 논문에서 소개한 XLNet의 주요 장점과..
-
Bertpractice_최신트랜드 논문 2024. 10. 4. 15:49
Q: BERT 논문의 주요 기여와 모델의 작동 방식 A: 문맥을 양방향으로 이해할 수 있는 모델 작동 방식 • Pretraining 1. Masked LM: 마스킹 된 단어를 맞춤으로써 문맥 이해 2. NSP: 두 문장이 이어진 문장인지 판별함으로써 자연어 이해 • Finetuing 1. Bert (내부구조는 transformer의 Encoder부분만 쌓음)Bidirectional Encoder Representation from Transformers 2018 SOTA(State of the art - 그때 당시 최고 성능이 제일 좋은 모델) 기존에 양방향 모델이 있었는데(Bi RNN in paper ELMO) 한쪽(앞에서 뒤쪽)으로 갔다가, 다른한쪽(뒤쪽에서 앞쪽)으로 가서 각각 한쪽으로 간 정보를..