자연어 foundation
-
Evaluation자연어 foundation 2024. 9. 4. 20:52
•언어 모델은 주어진 글의 “그럴싸함“ 을 계산함•글이 문법이나 의미적으로 올바를 경우 높은 확률•그렇지 않을 경우 낮은 확률••이러한 확률은 데이터셋에서 계산됨•최대우도법 등 = 직접 경우의 수를 세는것 Why is evaluation needed? •언어 모델이 “잘 작동한다“ 는 것은, 주어진 모델의 확률 계산이 정확하다는 것 •다시 말하자면, 주어진 단어 (입력값)에 대해 정확하고 적절한 대답을 이 언어 모델이 만들어 낼 수 있다는 것••이때 이러한 확률이 정확한지 어떻게 평가할 수 있을까?• ••언어 모델은 말 그대로 “모든 언어”에 대한 확률을 계산해야 함•다양한 분야와 형식에도 적절히 대응하여야 함è어떠한 사람의 능력을 평가하는 것과 유사함 •예를 들어, 어떤 모델을 경제신문에서만 학습했..
-
Tokenization자연어 foundation 2024. 9. 4. 11:32
•따라서 이미 공백으로 나누어져 있지 않은 단어들을 적절히 추가적으로 나누어 줄 필요가 있음 •이렇게 나누어진 단어를 Token이라고 함 (가장 작은 의미적 단위)•Token은 단어와 유사하지만 완전히 동일하지는 않음 •예를 들어, 문장 부호는 단어가 아니지만 Token으로 분류됨->I like apple, banana, and grape 에서 , 도 Token으로 분류 •때때로 한 단어가 여러 가지의 토큰으로 나뉠 수 있음•Unhappy -> Un happy •반면에 여러 단어가 한 개의 토큰이 될 수도 있음•COVID-19 (COVID - 19) •자연어 처리에서 대부분 모델들은 Token의 확률을 예측함 •많은 Tokeniser (토큰 분류기) 가 사용되고 있으며, 각각 다른 규칙을 적용함•다른..