분류 전체보기
-
Tokenization자연어 foundation 2024. 9. 4. 11:32
•따라서 이미 공백으로 나누어져 있지 않은 단어들을 적절히 추가적으로 나누어 줄 필요가 있음 •이렇게 나누어진 단어를 Token이라고 함 (가장 작은 의미적 단위)•Token은 단어와 유사하지만 완전히 동일하지는 않음 •예를 들어, 문장 부호는 단어가 아니지만 Token으로 분류됨->I like apple, banana, and grape 에서 , 도 Token으로 분류 •때때로 한 단어가 여러 가지의 토큰으로 나뉠 수 있음•Unhappy -> Un happy •반면에 여러 단어가 한 개의 토큰이 될 수도 있음•COVID-19 (COVID - 19) •자연어 처리에서 대부분 모델들은 Token의 확률을 예측함 •많은 Tokeniser (토큰 분류기) 가 사용되고 있으며, 각각 다른 규칙을 적용함•다른..
-
multi-class classification인공 지능 개념 2024. 9. 3. 14:27
softmax수식밑이 e인 지수함수 사용이유 softmax모델의 출력값을 class를 분류하기 위한 0과 1사이의 확률값으로 나타내기 위한방법 softmax 사용이유 multi-class classification -> 확률로 나타내기 위해서 softmax 사용z값(예측값)이 음수, 1보다 큰값이라도 확률로 나타내고 싶음 밑이 e인 지수함수를 소프트맥스 함수에 사용하는 이유 1. 지수함수의 값은 항상 0보다 크기 때문0 e^z1 --------------------------- = x라했을때 e^z1 + e^z2 + e^z3 0 분모인 e^z1 + e^z2 + e^z3 는 항상 양수 layer통과해..
-
chapter01. n-gram 언어모델논문리뷰 2024. 9. 1. 18:56
변역하려는 문장 상관관계있는 단어를 찾아냄. 비슷한 위치 비슷한 의미라고 가설을 세움연관된 단어 번역 배열나이브하게 번역 단어들이 하나이상의 뜻을 가짐 - 그래서 한단어가 정확하게 번역안될수도있음단어들이 복잡한 형태변환을 가짐 •다만 단순 번역은 실제 자연어의 복잡성을 제대로 반영하지 못함 어떻게 이러한 단서들을 모델링 할 수 있을까? Conditional Language Modelling (조건부 언어모델)어떠한 문장이나 글이 있을때 이 글의 확률을 계산하는 모델 문법적으로 맞는 문장이 등장할 확률이 많아짐 사과를 먹다 --> 0사과를 투표하다 ---> x chatgpt -> 사과를 먹으면?언어모델이 확률 계산후 확률높은것을 output 1.이러한 개념들을 실제로 확률적 ..
-
09_few-to-no-labels.ipynb -text의 라벨을 tag하기위한 방법transformer 2024. 8. 30. 17:04
입학전형 text의 라벨을 tag하기위한 방법 한 글에대해 label이 달린 갯수 label (정답)이 달린게 적은상황. 조취가 필요함title, body, label을 데이터에서 갖고옴 #중복텍스트제거 #텍스트의 길이 #텍스트의 길이 분포로 나타낸거 (제목, 글내용)0.7정도일때 성능이 제일 높았다가 threshold가 높으면 성능이 떨어짐 label(의 종류가 class) -> multi label classification class1 class2 class3 text1 0 0 1 text2 1 1 0 text3 1..
-
Distributed Representations of Words and Phrases and their Compositionality (Word2Vec)논문리뷰 2024. 8. 30. 11:55
https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf논문 리뷰시간 = 3일(12~16시간)퀴즈 시간(서머리시간) = 1일 (3~4시간) 5~6 강의 = 24일 랩실 논문 리뷰 임베딩(Embedding) 이란 •단어를 벡터로 바꾼 것 •단어/문장간 관련도 계산•의미적/문법적 정보 함축 •이상적으로, 비슷한 단어는 비슷한임베딩을 가져야 함 임베딩(Embedding) 단어를 벡터로 바꾼 것 단어/문장간 관련도 계산의미적/문법적 정보 함 이상적으로, 비슷한 단어는 비슷한 임베딩을 가져야 함=============== summary=================== •Embe..