ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터분석개론] Predictive Performance / Classifier Performance
    IT&컴퓨터공학/데이터분석개론 2021. 2. 12. 14:57

    앞에서 머신러닝으로 만들어진 모델을 가지고 우리는

    예측 혹은 분류를 한다고 배웠다.

     

    그 중 모델이 얼마나 예측을 잘하는지는 Predictive performance 로 나타내고,

    분류를 잘하는지는 Classifier performance 로 나타낸다.

     

    Predictive Performance

    숫자를 예측했을때 모델이 얼마나 잘 예측하고있는지 측정하는 방법.

     

     

    Predictive Accuracy 를 측정하는 방법

     

    1. MAE ( Mean Absolute Error ) : absolute error 의 평균을 나타낸다.

    2. Mean Error : error 의 평균을 나타낸다.

    Mean Error 와 MAE 는 절댓값이 있고 없고의 차이만 가지고 있다.

     

    이런 모델을 그렸을때 , MAE 의 경우 절댓값이 있으므로 모델이 데이터보다 아래있는지 위에있는지 판단할 수 없지만,

    Mean Error 의 경우 절댓값이 없으므로 모델이 전체적으로 데이터보다 아래있는지 판단할 수있다.

    때문에 모델만 조금 더 위에 그리면 되겠다 ~ 고 추측도 가능한게 Mean Error 의 장점이다.

     

    그러나 양의 오차와 음의 오차의 절댓값이 같아서 , 모델이 이상하게 그려졌는데도 Mean Error 가 0이 나와버리는 경우도있다.. 이건 Mean Error 의 큰 단점이다.

     

    3. MAPE ( Mean Absolute Percentage Error ) : MAE 에 Percentage 가 붙었다.

     

    MAE 와 Mean Error 의 경우 y축의 스케일의 영향을 받는다. 때문에 y값이 크면 e의 값이 커지기때문에 잘못 예측할 수 있다. 이를 보완하기 나온게 MAPE 와 밑에 나올 MPE 이다. 

     

    e를 y로 나누면서 스케일을 보정해줌에따라 스케일의 영향을 안 받을 수 있다. 퍼센테이지로 계산하기때문에 0~100 사이의 값으로 나온다.

     

    4. MPE ( Mean Percentage Error ) : MAPE 에서 절댓값만 빠졌다.

     

    5. RMSE ( Root Mean Squared Error ) : 절대적인 값으로 봤을 때 내 에러가 얼마나 큰가 ?

    오차의 합이 아주아주 크게 나오는 경우엔 연산속도가 느려질 수 있어서 이렇게 루트를 씌워 값을 작게만드는 

    RMSE 를 사용하기도 한다.

     

    이런 다섯가지 측정 기준을 잘 선택해서, 이 값들이 가장 작도록 ! 가장 최소화 하는 모델을 찾는게 예측의 목표다.

     


    Classifier performance

     

    Confusion Matrix

    classifier performance 를 측정하기 위한 행렬

     

    Classifier Accuracy 를 측정하는 방법

     

    1. Estimated Misclassification Rate : 전체 수에 대해서 클래스를 잘못 분류한 수를 나타낸다.

    2. Overall Accuracy : 클래스가 늘어나면 늘어날수록 에러를 구하려면 더하는 값이 너무 많아지기 때문에 accuracy 를 구하고 나서 1에서 빼서 에러를 구하는게 더 쉽다.

     

    Performance in Case of Unequal Importance of Classes

     

    분류의 경우엔 보통 반드시 맞춰야 하는게 존재하고, 덜 맞춰야 하는게 존재한다. 

    즉, C1 클래스를 예측하는 것이 C2 를 예측하는 것보다 중요한 경우가 있다.

     

    예를들어 산불이 일어난다 / 일어나지 않는다 의 두가지 클래스가 있을때, 

    산불이 날때는 위험하므로 무조건 맞춰야한다. 반대로 산불이 일어나지 않는다는걸 맞추는건 그렇게 중요하진 않다.

     

    1. Sensitivity of a classifier : C1 ( 중요한 클래스 ) 를 제대로 분류해낼 확률

    분모 : C1을 C1이라고 예측한 경우 +  C1을 C2라고 잘못 예측한 경우

    분자 : C1을 C1이라고 예측한 경우

     

    2. Specificity of a classifier : C2 를 제대로 분류해낼 확률

     

    보통 Sensitivity 는 높아야하고 Specificity 는 약간 낮아도 괜찮다고 본다. ( C1 을 잘 분류하는게 훨씬 더 중요하므로 )

    댓글

Designed by Tistory.