ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Evaluation
    자연어 foundation 2024. 9. 4. 20:52
    언어 모델은 주어진 글의 그럴싸함을 계산함
    글이 문법이나 의미적으로 올바를 경우 높은 확률
    그렇지 않을 경우 낮은 확률
    이러한 확률은 데이터셋에서 계산됨
    최대우도법 = 직접 경우의 수를 세는것

     

     

    Why is evaluation needed?

     

    언어 모델이 잘 작동한다는 것은, 주어진 모델의 확률 계산이 정확하다는 것
    다시 말하자면, 주어진 단어 (입력값)에 대해 정확하고 적절한 대답을 이 언어 모델이 만들어 낼 수 있다는 것
    이때 이러한 확률이 정확한지 어떻게 평가할 수 있을까?

     

    언어 모델은 말 그대로 모든 언어에 대한 확률을 계산해야 함
    다양한 분야와 형식에도 적절히 대응하여야 함
    è어떠한 사람의 능력을 평가하는 것과 유사함

     

     

    예를 들어, 어떤 모델을 경제신문에서만 학습했다면 다른 분야에서는 제대로 된 예측을 하지 못할것
    è따라서 언어 모델에는 종합적인 평가가 필요함
    è예의바름, 정확함, 정교함 등

     

     

    명시적인 (Explicit) 테스트: 실제로 언어 모델에게 시험을 치도록 하는 것. 입력값과 모범 정답으로 채점
    예시: 삼각형의 각 꼭짓점이 (0, 0), (-1, 1), 그리고 (3, 3)에 있다. 이 삼각형의 넓이는 무엇인가?
    모범 정답: “3”, “넓이는 3이다”, “5파이
    실제로 언어모델이 시험치는것의 장단점
    단점.
    -> 사람이 채점을 해야한다.
    -> 좋은 문제를 만들기 힘들다.
    장점
    -> 명료하다(사람이 보기 쉽다.)
    -> 다양한 영역을 테스트 할수 있다.

     

    검증된(훌륭한) 언어모델 GPT-4.0, SONNET 3.5  -> 최종 TEST로 진행
    -> 조금 성능이 떨어져 보이는 언어모델의 시험결과를 채점
    -> 전문가 사람이 채점하는 결과와 비슷

     

    암묵적인 (Implicit) 테스트: 언어 모델의 훈련 과정에서 나오는 수치들을 활용해 간접적으로 평가하는 방법
    가지고 있는 데이터를 통해 자체적으로 계산이 가능한

     

    => LOSS, 정확도(분류기)
    예시: Perplexity - 혼란스러운정도

     

    만약 어떤 언어 모델이 예측을 할때 확신이 없다면, 그 예측은 틀릴 가능성이 높다 (사람이 시험 칠때와 비슷)
    평균적으로 확신이 높다면 성능도 높고, 반대도 마찬가지

     

     

     

    '자연어 foundation' 카테고리의 다른 글

    Tokenization  (10) 2024.09.04
Designed by Tistory.