Evaluation

Evaluation

자연어 foundation 2024. 9. 4. 20:52

•언어 모델은 주어진 글의 “그럴싸함“ 을 계산함

•글이 문법이나 의미적으로 올바를 경우 높은 확률

•그렇지 않을 경우 낮은 확률

•

•이러한 확률은 데이터셋에서 계산됨

•최대우도법 등 = 직접 경우의 수를 세는것

Why is evaluation needed?

•언어 모델이 “잘 작동한다“ 는 것은, 주어진 모델의 확률 계산이 정확하다는 것

•다시 말하자면, 주어진 단어 (입력값)에 대해 정확하고 적절한 대답을 이 언어 모델이 만들어 낼 수 있다는 것

•

•이때 이러한 확률이 정확한지 어떻게 평가할 수 있을까?

•

•

•언어 모델은 말 그대로 “모든 언어”에 대한 확률을 계산해야 함

•다양한 분야와 형식에도 적절히 대응하여야 함

è어떠한 사람의 능력을 평가하는 것과 유사함

•예를 들어, 어떤 모델을 경제신문에서만 학습했다면 다른 분야에서는 제대로 된 예측을 하지 못할것

è따라서 언어 모델에는 종합적인 평가가 필요함

è예의바름, 정확함, 정교함 등

•명시적인 (Explicit) 테스트: 실제로 언어 모델에게 시험을 치도록 하는 것. 입력값과 모범 정답으로 채점

•예시: 삼각형의 각 꼭짓점이 (0, 0), (-1, 1), 그리고 (3, 3)에 있다. 이 삼각형의 넓이는 무엇인가?

•모범 정답: “3”, “넓이는 3이다”, “5파이”

•실제로 언어모델이 시험치는것의 장단점

•단점.

•-> 사람이 채점을 해야한다.

•-> 좋은 문제를 만들기 힘들다.

•장점

•-> 명료하다(사람이 보기 쉽다.)

•-> 다양한 영역을 테스트 할수 있다.

•검증된(훌륭한) 언어모델 GPT-4.0, SONNET 3.5 -> 최종 TEST로 진행

•-> 조금 성능이 떨어져 보이는 언어모델의 시험결과를 채점

•-> 전문가 사람이 채점하는 결과와 비슷

•암묵적인 (Implicit) 테스트: 언어 모델의 훈련 과정에서 나오는 수치들을 활용해 간접적으로 평가하는 방법

•가지고 있는 데이터를 통해 자체적으로 계산이 가능한

•=> LOSS값, 정확도(분류기)

•예시: Perplexity - 혼란스러운정도

•만약 어떤 언어 모델이 예측을 할때 확신이 없다면, 그 예측은 틀릴 가능성이 높다 (사람이 시험 칠때와 비슷)

평균적으로 확신이 높다면 성능도 높고, 반대도 마찬가지

'자연어 foundation' 카테고리의 다른 글

Tokenization (10) 2024.09.04
관련글 관련글 더보기
- Tokenization

ABOUT ME

자연어(NLP) 자연어(NLP)

Why is evaluation needed?

'자연어 foundation' 카테고리의 다른 글

티스토리툴바

ABOUT ME

Why is evaluation needed?

'자연어 foundation' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바