•언어 모델은 주어진 글의 “그럴싸함“ 을 계산함
•글이 문법이나 의미적으로 올바를 경우 높은 확률
•그렇지 않을 경우 낮은 확률
•
•이러한 확률은 데이터셋에서 계산됨
•최대우도법 등 = 직접 경우의 수를 세는것
Why is evaluation needed?
•언어 모델이 “잘 작동한다“ 는 것은, 주어진 모델의 확률 계산이 정확하다는 것
•다시 말하자면, 주어진 단어 (입력값)에 대해 정확하고 적절한 대답을 이 언어 모델이 만들어 낼 수 있다는 것
•
•이때 이러한 확률이 정확한지 어떻게 평가할 수 있을까?
•
•
•언어 모델은 말 그대로 “모든 언어”에 대한 확률을 계산해야 함
•다양한 분야와 형식에도 적절히 대응하여야 함
è어떠한 사람의 능력을 평가하는 것과 유사함
•예를 들어, 어떤 모델을 경제신문에서만 학습했다면 다른 분야에서는 제대로 된 예측을 하지 못할것
è따라서 언어 모델에는 종합적인 평가가 필요함
è예의바름, 정확함, 정교함 등
•명시적인 (Explicit) 테스트: 실제로 언어 모델에게 시험을 치도록 하는 것. 입력값과 모범 정답으로 채점
•예시: 삼각형의 각 꼭짓점이 (0, 0), (-1, 1), 그리고 (3, 3)에 있다. 이 삼각형의 넓이는 무엇인가?
•모범 정답: “3”, “넓이는 3이다”, “5파이”
•실제로 언어모델이 시험치는것의 장단점
•단점.
•-> 사람이 채점을 해야한다.
•-> 좋은 문제를 만들기 힘들다.
•장점
•-> 명료하다(사람이 보기 쉽다.)
•-> 다양한 영역을 테스트 할수 있다.
•검증된(훌륭한) 언어모델 GPT-4.0, SONNET 3.5 -> 최종 TEST로 진행
•-> 조금 성능이 떨어져 보이는 언어모델의 시험결과를 채점
•-> 전문가 사람이 채점하는 결과와 비슷
•암묵적인 (Implicit) 테스트: 언어 모델의 훈련 과정에서 나오는 수치들을 활용해 간접적으로 평가하는 방법
•가지고 있는 데이터를 통해 자체적으로 계산이 가능한
•=> LOSS값, 정확도(분류기)
•예시: Perplexity - 혼란스러운정도
•만약 어떤 언어 모델이 예측을 할때 확신이 없다면, 그 예측은 틀릴 가능성이 높다 (사람이 시험 칠때와 비슷)
평균적으로 확신이 높다면 성능도 높고, 반대도 마찬가지