IT&컴퓨터공학/데이터분석개론
-
[데이터분석개론] Linear Regression . 선형회귀분석IT&컴퓨터공학/데이터분석개론 2021. 2. 13. 14:28
Linear Regression ( 선형 회귀분석 ) X로 Y 를 예측하며 이때 이때 Y 를 분류하는것이 아닌 '예측' 하는 것이기 때문에 Y 값은 항상 numerical 한 outcome 이어야 한다. Simple Linear Regression ( 단순 선형 회귀분석 ) 가장 간단한 지도학습 중 하나. 하나의 X 로 Y 를 예측하는 회귀선을 그리며, 이때 선은 실제 Y값과 예측된 값 사이의 편차의 제곱을 최소화 하도록 그려진다. Multiple Linear Regression ( 다중 선형 회귀분석 ) 여러개의 X 로 Y 를 예측하는 회귀선을 그린다. 우리는 P 개의 dimensions 들을 가지고 있으며, 해당 dimensions 들로 Y값을 예측한다. 빨간 박스 부분이 내가 가지고있는 선형식 ( ..
-
[데이터분석개론] Predictive Performance / Classifier PerformanceIT&컴퓨터공학/데이터분석개론 2021. 2. 12. 14:57
앞에서 머신러닝으로 만들어진 모델을 가지고 우리는 예측 혹은 분류를 한다고 배웠다. 그 중 모델이 얼마나 예측을 잘하는지는 Predictive performance 로 나타내고, 분류를 잘하는지는 Classifier performance 로 나타낸다. Predictive Performance 숫자를 예측했을때 모델이 얼마나 잘 예측하고있는지 측정하는 방법. Predictive Accuracy 를 측정하는 방법 1. MAE ( Mean Absolute Error ) : absolute error 의 평균을 나타낸다. 2. Mean Error : error 의 평균을 나타낸다. Mean Error 와 MAE 는 절댓값이 있고 없고의 차이만 가지고 있다. 이런 모델을 그렸을때 , MAE 의 경우 절댓값이 있으..
-
[데이터분석개론] 머신러닝과 Performance EvaluationIT&컴퓨터공학/데이터분석개론 2021. 2. 12. 12:47
머신러닝 개요 머신러닝은 크게 Supervised Learning ( 지도학습 ) : 내가 타겟하고 있는 값이 있다. 그 타겟하고있는 값을 잘 분류하거나 예측해줘 ! Unsupervised Learning ( 비지도학습 ) : 뭘 설명하고있는지는 모르지만 그냥 이 데이터간에 어떻게 다른지 알고싶어 ! 잘 분류해봐 Reinforcement Learning ( 강화학습 ) 로 이루어져 있다. 머신러닝 과정 Raw Data 를 가지고 전처리 과정을 거친다. ( 앞에서 배운 PCA 와 같은 ) 이 전처리된 데이터를 가지고 머신러닝 과정을 진행한다. Simple Linear Regression ( 단순 선형 회귀분석 ) 위의 그림에서 볼 수 있듯이 , 약의 복용량과 지속기간에 대한 데이터는 빨간 점의 형태로 찍혀..
-
[데이터분석개론] PCA - Dimension Reduction 방법 중 하나IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 22:38
PCA ( 주성분 분석 ) Principal Component Analysis - PCA 는 input variables 를 분석해서 predictors 의 갯수를 줄이는데 아주 유용한 방법이다. - 데이터를 저 차원의 공간으로 project 시키는 방법이다. 즉, N 차원의 data 를 K 차원의 data로 맵핑시키는 것이며 이때 K는 N 보다 당연히 작거나 같다. - PCA는 only 숫자에만 사용이 가능하다. 따라서 카테고리형 변수는 다른 방법으로 dimension 을 줄여야한다. PCA 진행 방법 1. X축은 dimension1 , Y축은 dimension2 에 해당하는 데이터가 산포도로 찍혀있다. 서로 음의 상관관계를 나타내고있다. 2. 컴퓨터는 이제 선 하나를 그릴건데 , 해당 선은 가장 많은..
-
[데이터분석개론] Correlation Analysis . 상관관계 분석IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:40
Covariance 와 Correlation Coefficinet 두 변수 간의 선형관계를 나타내주는 두 가지 특성이다. Covariance ( 공분산 ) : 내가 설명할 수 있는 변동의 크기. 두 가지 Dimension 이 얼마나 겹치냐 ? 를 나타냄 Correlation ( 상관계수 ) 두 변수 간의 상관관계는 3가지로 구분할 수 있다. ( 1 ~ -1 사이의 값으로 이루어짐 ) 1. 양의 상관관계 : 변수 X가 증가할 때 Y도 함께 증가한다. → 상관계수 > 0 2. 음의 상관관계 : 변수 X가 증가할 때 Y도 감소한다. → 상관계수 < 0 3. 상관관계 없음 : 변수 X와 Y는 상관이 없다. → 상관계수 = 0 , 공분산 = 0 상관관계 분석을 왜 이용하는가 ? - 데이터 셋의 Dimensions..
-
[데이터분석개론] Dimension ReductionIT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:08
머신러닝 공부를 위해 데이터분석개론 수업에서 들었던 내용을 정리해보려고 한다. 데이터분석개론 교수님이 너무 잘 가르쳐주셔서 다음 학기도 교수님 수업으로 들으려했는데 다른학교로 가셔서... 교수님 잘 지내시나요...ㅎㅎ 아무튼 여기에 열심히 기록해두고 두고두고 찾아봐야겠다. Dimension 하나하나의 Feature 들을 Dimension 이라고 한다. feature 는 데이터에서 '열'을 담당하며 만약 개인정보에 관한 데이터라면 그 사람이 나이, 이름, 직장 등등을 예로 들수 있다. 데이터가 들어갈때 변수화 되는것은 모두 feature 라고 부른다. Dimension Reduction 이 필요한 이유 - 우리는 데이터 홍수에서 살고있다. - 여러 변수들은 결국에는 같은 것을 설명하는 경우가 많으며 - 결..