ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 불균형 (Data Imbalance): Oversampling, Undersampling
    practice_인공지능,머신러닝 2024. 9. 28. 15:27

    데이터 불균형 (Data Imbalance): Oversampling, Undersampling이 뭔가요. 

     - 데이터가 class별로 상당히 불균형(갯수차이가 심한경우) 하게 있는것입니다.

    해결책

    - oversampling : 갯수가 적은 class를 복사하듯이 여러개 뽑은것이고 

    - undersampling: 갯수가 많은 class를 일부만 뽑아서 활용

    - 이두개가 완벽한 해결책은아님

     

    Binary Classification 

    0이 90개, 1이 10개일때

    -oversampling : 1이 적으므로, 1이 10개를 9번 반복해서 90개를 만든다. 0이 90개라서 비율을 맞추려고

    -undersampling : 0이 많으므로 0이 90개중에 10개만 뽑아서 1이 10개와의 비율을 맞춤

     

      

     

     

    'practice_인공지능,머신러닝' 카테고리의 다른 글

    transformer  (1) 2024.09.28
Designed by Tistory.