-
[데이터분석개론]Logistic Regression . 로지스틱 회귀분석IT&컴퓨터공학/데이터분석개론 2021. 2. 13. 20:30
Logistic Regression
선형회귀분석과 달리 Y ( target ) 이 숫자가 아니고 카테고리일 때 사용하는 회귀분석.
즉, 특정 숫자를 예측한다기보다 데이터가 어떤 카테고리에 속해있는가 예측하기 위해 사용한다.
앞에선 다중선형회귀분석 식과 비슷하지만 여기서 target 값은 Y 가 아닌 P를 쓰는데,
이는 로지스틱 회귀분석에서는 예측하려는게 클래스이다보니 Y값을 확률로 나타내기 떄문이다. ( 0 ~ 1 사이의 값 )
예를들어 Y값이 0.5 이하면 클래스 1로 , 0.5 초과면 클래스 2로 분류하는 식이다.
그러나 위의 식에는 문제점이 있는데, p 값이 음의 무한대부터 양의 무한대와 같은 큰 수도 가질 수 있다는 점이다.
그러나 우리는 p 값을 0~1 사이의 값으로만 표현해야한다.
이렇게 p의 값을 제한해주기위해 등장한것이 '시그모이드 함수' 이다.
시그모이드 함수
이 시그모이드 함수를 사용해서 P를 아래와 같이 다시 나타낼 수 있다.
Odds ( 승산 )
임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 뜻하는 개념
이 승산에 로그를 씌우면 그래프가 직선으로 바뀐다. 이렇게 바꾸는 이유는 e승 함수보다 직선 함수가 알아보기도 좋고 빠르기 때문이다.
이를 Logit 이라고 부른다.
'IT&컴퓨터공학 > 데이터분석개론' 카테고리의 다른 글
[데이터분석개론] Naïve Bayes Classifier. 나이브베이즈 분류 (0) 2021.02.13 [데이터분석개론] K-Nearest Neighbors (0) 2021.02.13 [데이터분석개론] Linear Regression . 선형회귀분석 (0) 2021.02.13 [데이터분석개론] Predictive Performance / Classifier Performance (0) 2021.02.12 [데이터분석개론] 머신러닝과 Performance Evaluation (0) 2021.02.12 댓글