-
RoBERTapractice_최신트랜드 논문 2024. 10. 12. 16:48
Q. RoBERTa (A Robustly Optimized BERT Pretraining Approach) - 일반화가 잘되었다는 모델
A. Bert 강화버전
학습데이터 늘리고, 학습시간늘림.
NSP빼고 Dynamic masking써서 기존 Bert보다 많이 올렸음
XLNet 다음에 나온 논문
일반화가 잘되었다는 모델
Bert를 잘 훈련시키겠다.
hyperparameter를 바꿔가며 Bert를 더 훈련시킴
Bert가 학습이 충분히 안되었다.
기존 Bert에 비해서 10배정도 Data를 더 많이 썼다.
Training을 더 오래돌림(data가 많아서)
Batch size 를 키움
Bert = MLM(masked langauge model) + NSP(next sentence prediction)
인데
RoBERTa = MLM(masked langauge model) 만 씀
Dynamic masking써서 masking을 중간에 바꿔서 썼음
'practice_최신트랜드 논문' 카테고리의 다른 글
T5 (1) 2024.10.12 Bert 이후 모델 (Transfomer-XL, GPT2, XLNet) (2) 2024.10.12 GPT (다음단어맞추기가 핵심) (1) 2024.10.07 Bert (0) 2024.10.04