IT&컴퓨터공학/데이터분석개론

[데이터분석개론] Correlation Analysis . 상관관계 분석

yan_z 2021. 2. 11. 19:40

Covariance 와 Correlation Coefficinet 

 

두 변수 간의 선형관계를 나타내주는 두 가지 특성이다.

 

Covariance ( 공분산 ) : 내가 설명할 수 있는 변동의 크기. 두 가지 Dimension 이 얼마나 겹치냐 ? 를 나타냄

Correlation ( 상관계수 ) 

두 변수 간의 상관관계는 3가지로 구분할 수 있다. ( 1 ~ -1 사이의 값으로 이루어짐 )

 

1. 양의 상관관계 : 변수 X가 증가할 때 Y도 함께 증가한다. → 상관계수 > 0

2. 음의 상관관계 : 변수 X가 증가할 때 Y도 감소한다. → 상관계수 < 0

3. 상관관계 없음 : 변수 X와 Y는 상관이 없다. → 상관계수 = 0 , 공분산 = 0

 

 

상관관계 분석을 왜 이용하는가 ? 

 

- 데이터 셋의 Dimensions 가 아주 많을 경우, redundancies 를 찾아야한다 ( 잉여 )

- redundancies 를 찾기위해선 correlation matrix 를 보고, dimension 간 상관관계를 살펴보면된다.

- X 와 Y의 상관계수가 아주 strong 한 경우 ( 예를 들어 0.9 인경우 ) 두 가지 dimension 중 하나만 골라 사용해도 된다.

 

- 혹은 데이터셋을 가끔 보다보면 이름만 다르고 사실은 똑같은걸 표현하고 있는 dimensions 들이 존재할때가 있는데, 상관관계 분석을 통해 이런 dimensions 들을 뽑아내 하나만 사용할 수 있다.

 

- 이렇게 하면 결론적으로 dimensions 이 줄어들어 우리가 필요한 데이터의 양도 줄어드는 효과가있다. 

 

Correlation matrix

 

위의 그림은 Heatmap 으로 correlation matrix 를 표현한 모습이다. 

Heatmap 은 이 matrix를 표현하기 가장 좋은 방법이라고 볼 수 있다.

 

해당 map 의 가운데 노란색 직선은 상관관계가 1.0 으로 나오는데  같은 dimension 끼리 상관관계를 분석했기 때문에 당연한 결과다.

 

RAD 와 TAX 의 상관관계를 보면 노란색에 가깝게 아주 높은 상관관계가 나온다.

 

즉 아주 높은 양의 상관관계를 띄므로 , RAD 가 증가하면 TAX 도 증가한다는 의미고, 

따라서 두 가지 Dimensions 은 거의 같은걸 설명하고 있다고 생각할 수 있으므로 두가지 dimensions 중 하나만 사용해도 될거같다 ! 는 결론에 도달한다.