-
[데이터분석개론] Predictive Performance / Classifier PerformanceIT&컴퓨터공학/데이터분석개론 2021. 2. 12. 14:57
앞에서 머신러닝으로 만들어진 모델을 가지고 우리는
예측 혹은 분류를 한다고 배웠다.
그 중 모델이 얼마나 예측을 잘하는지는 Predictive performance 로 나타내고,
분류를 잘하는지는 Classifier performance 로 나타낸다.
Predictive Performance
숫자를 예측했을때 모델이 얼마나 잘 예측하고있는지 측정하는 방법.
Predictive Accuracy 를 측정하는 방법
1. MAE ( Mean Absolute Error ) : absolute error 의 평균을 나타낸다.
2. Mean Error : error 의 평균을 나타낸다.
Mean Error 와 MAE 는 절댓값이 있고 없고의 차이만 가지고 있다.
이런 모델을 그렸을때 , MAE 의 경우 절댓값이 있으므로 모델이 데이터보다 아래있는지 위에있는지 판단할 수 없지만,
Mean Error 의 경우 절댓값이 없으므로 모델이 전체적으로 데이터보다 아래있는지 판단할 수있다.
때문에 모델만 조금 더 위에 그리면 되겠다 ~ 고 추측도 가능한게 Mean Error 의 장점이다.
그러나 양의 오차와 음의 오차의 절댓값이 같아서 , 모델이 이상하게 그려졌는데도 Mean Error 가 0이 나와버리는 경우도있다.. 이건 Mean Error 의 큰 단점이다.
3. MAPE ( Mean Absolute Percentage Error ) : MAE 에 Percentage 가 붙었다.
MAE 와 Mean Error 의 경우 y축의 스케일의 영향을 받는다. 때문에 y값이 크면 e의 값이 커지기때문에 잘못 예측할 수 있다. 이를 보완하기 나온게 MAPE 와 밑에 나올 MPE 이다.
e를 y로 나누면서 스케일을 보정해줌에따라 스케일의 영향을 안 받을 수 있다. 퍼센테이지로 계산하기때문에 0~100 사이의 값으로 나온다.
4. MPE ( Mean Percentage Error ) : MAPE 에서 절댓값만 빠졌다.
5. RMSE ( Root Mean Squared Error ) : 절대적인 값으로 봤을 때 내 에러가 얼마나 큰가 ?
오차의 합이 아주아주 크게 나오는 경우엔 연산속도가 느려질 수 있어서 이렇게 루트를 씌워 값을 작게만드는
RMSE 를 사용하기도 한다.
이런 다섯가지 측정 기준을 잘 선택해서, 이 값들이 가장 작도록 ! 가장 최소화 하는 모델을 찾는게 예측의 목표다.
Classifier performance
Confusion Matrix
classifier performance 를 측정하기 위한 행렬
Classifier Accuracy 를 측정하는 방법
1. Estimated Misclassification Rate : 전체 수에 대해서 클래스를 잘못 분류한 수를 나타낸다.
2. Overall Accuracy : 클래스가 늘어나면 늘어날수록 에러를 구하려면 더하는 값이 너무 많아지기 때문에 accuracy 를 구하고 나서 1에서 빼서 에러를 구하는게 더 쉽다.
Performance in Case of Unequal Importance of Classes
분류의 경우엔 보통 반드시 맞춰야 하는게 존재하고, 덜 맞춰야 하는게 존재한다.
즉, C1 클래스를 예측하는 것이 C2 를 예측하는 것보다 중요한 경우가 있다.
예를들어 산불이 일어난다 / 일어나지 않는다 의 두가지 클래스가 있을때,
산불이 날때는 위험하므로 무조건 맞춰야한다. 반대로 산불이 일어나지 않는다는걸 맞추는건 그렇게 중요하진 않다.
1. Sensitivity of a classifier : C1 ( 중요한 클래스 ) 를 제대로 분류해낼 확률
분모 : C1을 C1이라고 예측한 경우 + C1을 C2라고 잘못 예측한 경우
분자 : C1을 C1이라고 예측한 경우
2. Specificity of a classifier : C2 를 제대로 분류해낼 확률
보통 Sensitivity 는 높아야하고 Specificity 는 약간 낮아도 괜찮다고 본다. ( C1 을 잘 분류하는게 훨씬 더 중요하므로 )
'IT&컴퓨터공학 > 데이터분석개론' 카테고리의 다른 글
[데이터분석개론]Logistic Regression . 로지스틱 회귀분석 (0) 2021.02.13 [데이터분석개론] Linear Regression . 선형회귀분석 (0) 2021.02.13 [데이터분석개론] 머신러닝과 Performance Evaluation (0) 2021.02.12 [데이터분석개론] PCA - Dimension Reduction 방법 중 하나 (0) 2021.02.11 [데이터분석개론] Correlation Analysis . 상관관계 분석 (0) 2021.02.11 댓글