IT&컴퓨터공학/데이터분석개론

[데이터분석개론]Logistic Regression . 로지스틱 회귀분석

yan_z 2021. 2. 13. 20:30

Logistic Regression 

 

선형회귀분석과 달리 Y ( target ) 이 숫자가 아니고 카테고리일 때 사용하는 회귀분석.

즉, 특정 숫자를 예측한다기보다 데이터가 어떤 카테고리에 속해있는가 예측하기 위해 사용한다.

 

앞에선 다중선형회귀분석 식과 비슷하지만 여기서 target 값은 Y 가 아닌 P를 쓰는데, 

이는 로지스틱 회귀분석에서는 예측하려는게 클래스이다보니 Y값을 확률로 나타내기 떄문이다. ( 0 ~ 1 사이의 값 )

 

예를들어 Y값이 0.5 이하면 클래스 1로 , 0.5 초과면 클래스 2로 분류하는 식이다.

 

그러나 위의 식에는 문제점이 있는데, p 값이 음의 무한대부터 양의 무한대와 같은 큰 수도 가질 수 있다는 점이다.

그러나 우리는 p 값을 0~1 사이의 값으로만 표현해야한다.

 

이렇게 p의 값을 제한해주기위해 등장한것이 '시그모이드 함수' 이다.

 

시그모이드 함수

 

 

이 시그모이드 함수를 사용해서 P를 아래와 같이 다시 나타낼 수 있다.

 

Odds ( 승산 )

 

임의의 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율을 뜻하는 개념

이 승산에 로그를 씌우면 그래프가 직선으로 바뀐다. 이렇게 바꾸는 이유는 e승 함수보다 직선 함수가 알아보기도 좋고 빠르기 때문이다.

 

이를 Logit 이라고 부른다.