-
[데이터분석개론] Correlation Analysis . 상관관계 분석IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:40
Covariance 와 Correlation Coefficinet
두 변수 간의 선형관계를 나타내주는 두 가지 특성이다.
Covariance ( 공분산 ) : 내가 설명할 수 있는 변동의 크기. 두 가지 Dimension 이 얼마나 겹치냐 ? 를 나타냄
Correlation ( 상관계수 )
두 변수 간의 상관관계는 3가지로 구분할 수 있다. ( 1 ~ -1 사이의 값으로 이루어짐 )
1. 양의 상관관계 : 변수 X가 증가할 때 Y도 함께 증가한다. → 상관계수 > 0
2. 음의 상관관계 : 변수 X가 증가할 때 Y도 감소한다. → 상관계수 < 0
3. 상관관계 없음 : 변수 X와 Y는 상관이 없다. → 상관계수 = 0 , 공분산 = 0
상관관계 분석을 왜 이용하는가 ?
- 데이터 셋의 Dimensions 가 아주 많을 경우, redundancies 를 찾아야한다 ( 잉여 )
- redundancies 를 찾기위해선 correlation matrix 를 보고, dimension 간 상관관계를 살펴보면된다.
- X 와 Y의 상관계수가 아주 strong 한 경우 ( 예를 들어 0.9 인경우 ) 두 가지 dimension 중 하나만 골라 사용해도 된다.
- 혹은 데이터셋을 가끔 보다보면 이름만 다르고 사실은 똑같은걸 표현하고 있는 dimensions 들이 존재할때가 있는데, 상관관계 분석을 통해 이런 dimensions 들을 뽑아내 하나만 사용할 수 있다.
- 이렇게 하면 결론적으로 dimensions 이 줄어들어 우리가 필요한 데이터의 양도 줄어드는 효과가있다.
Correlation matrix
위의 그림은 Heatmap 으로 correlation matrix 를 표현한 모습이다.
Heatmap 은 이 matrix를 표현하기 가장 좋은 방법이라고 볼 수 있다.
해당 map 의 가운데 노란색 직선은 상관관계가 1.0 으로 나오는데 같은 dimension 끼리 상관관계를 분석했기 때문에 당연한 결과다.
RAD 와 TAX 의 상관관계를 보면 노란색에 가깝게 아주 높은 상관관계가 나온다.
즉 아주 높은 양의 상관관계를 띄므로 , RAD 가 증가하면 TAX 도 증가한다는 의미고,
따라서 두 가지 Dimensions 은 거의 같은걸 설명하고 있다고 생각할 수 있으므로 두가지 dimensions 중 하나만 사용해도 될거같다 ! 는 결론에 도달한다.
'IT&컴퓨터공학 > 데이터분석개론' 카테고리의 다른 글
[데이터분석개론] Linear Regression . 선형회귀분석 (0) 2021.02.13 [데이터분석개론] Predictive Performance / Classifier Performance (0) 2021.02.12 [데이터분석개론] 머신러닝과 Performance Evaluation (0) 2021.02.12 [데이터분석개론] PCA - Dimension Reduction 방법 중 하나 (0) 2021.02.11 [데이터분석개론] Dimension Reduction (0) 2021.02.11 댓글