-
[데이터분석개론] Predictive Performance / Classifier PerformanceIT&컴퓨터공학/데이터분석개론 2021. 2. 12. 14:57
앞에서 머신러닝으로 만들어진 모델을 가지고 우리는 예측 혹은 분류를 한다고 배웠다. 그 중 모델이 얼마나 예측을 잘하는지는 Predictive performance 로 나타내고, 분류를 잘하는지는 Classifier performance 로 나타낸다. Predictive Performance 숫자를 예측했을때 모델이 얼마나 잘 예측하고있는지 측정하는 방법. Predictive Accuracy 를 측정하는 방법 1. MAE ( Mean Absolute Error ) : absolute error 의 평균을 나타낸다. 2. Mean Error : error 의 평균을 나타낸다. Mean Error 와 MAE 는 절댓값이 있고 없고의 차이만 가지고 있다. 이런 모델을 그렸을때 , MAE 의 경우 절댓값이 있으..
-
[데이터분석개론] 머신러닝과 Performance EvaluationIT&컴퓨터공학/데이터분석개론 2021. 2. 12. 12:47
머신러닝 개요 머신러닝은 크게 Supervised Learning ( 지도학습 ) : 내가 타겟하고 있는 값이 있다. 그 타겟하고있는 값을 잘 분류하거나 예측해줘 ! Unsupervised Learning ( 비지도학습 ) : 뭘 설명하고있는지는 모르지만 그냥 이 데이터간에 어떻게 다른지 알고싶어 ! 잘 분류해봐 Reinforcement Learning ( 강화학습 ) 로 이루어져 있다. 머신러닝 과정 Raw Data 를 가지고 전처리 과정을 거친다. ( 앞에서 배운 PCA 와 같은 ) 이 전처리된 데이터를 가지고 머신러닝 과정을 진행한다. Simple Linear Regression ( 단순 선형 회귀분석 ) 위의 그림에서 볼 수 있듯이 , 약의 복용량과 지속기간에 대한 데이터는 빨간 점의 형태로 찍혀..
-
[데이터분석개론] PCA - Dimension Reduction 방법 중 하나IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 22:38
PCA ( 주성분 분석 ) Principal Component Analysis - PCA 는 input variables 를 분석해서 predictors 의 갯수를 줄이는데 아주 유용한 방법이다. - 데이터를 저 차원의 공간으로 project 시키는 방법이다. 즉, N 차원의 data 를 K 차원의 data로 맵핑시키는 것이며 이때 K는 N 보다 당연히 작거나 같다. - PCA는 only 숫자에만 사용이 가능하다. 따라서 카테고리형 변수는 다른 방법으로 dimension 을 줄여야한다. PCA 진행 방법 1. X축은 dimension1 , Y축은 dimension2 에 해당하는 데이터가 산포도로 찍혀있다. 서로 음의 상관관계를 나타내고있다. 2. 컴퓨터는 이제 선 하나를 그릴건데 , 해당 선은 가장 많은..
-
[데이터분석개론] Correlation Analysis . 상관관계 분석IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:40
Covariance 와 Correlation Coefficinet 두 변수 간의 선형관계를 나타내주는 두 가지 특성이다. Covariance ( 공분산 ) : 내가 설명할 수 있는 변동의 크기. 두 가지 Dimension 이 얼마나 겹치냐 ? 를 나타냄 Correlation ( 상관계수 ) 두 변수 간의 상관관계는 3가지로 구분할 수 있다. ( 1 ~ -1 사이의 값으로 이루어짐 ) 1. 양의 상관관계 : 변수 X가 증가할 때 Y도 함께 증가한다. → 상관계수 > 0 2. 음의 상관관계 : 변수 X가 증가할 때 Y도 감소한다. → 상관계수 < 0 3. 상관관계 없음 : 변수 X와 Y는 상관이 없다. → 상관계수 = 0 , 공분산 = 0 상관관계 분석을 왜 이용하는가 ? - 데이터 셋의 Dimensions..
-
[데이터분석개론] Dimension ReductionIT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:08
머신러닝 공부를 위해 데이터분석개론 수업에서 들었던 내용을 정리해보려고 한다. 데이터분석개론 교수님이 너무 잘 가르쳐주셔서 다음 학기도 교수님 수업으로 들으려했는데 다른학교로 가셔서... 교수님 잘 지내시나요...ㅎㅎ 아무튼 여기에 열심히 기록해두고 두고두고 찾아봐야겠다. Dimension 하나하나의 Feature 들을 Dimension 이라고 한다. feature 는 데이터에서 '열'을 담당하며 만약 개인정보에 관한 데이터라면 그 사람이 나이, 이름, 직장 등등을 예로 들수 있다. 데이터가 들어갈때 변수화 되는것은 모두 feature 라고 부른다. Dimension Reduction 이 필요한 이유 - 우리는 데이터 홍수에서 살고있다. - 여러 변수들은 결국에는 같은 것을 설명하는 경우가 많으며 - 결..
-
[딥러닝] 2강. 지도학습의 데이터종류 , 왜 딥러닝이 발전할 수 있었는가?IT&컴퓨터공학/딥러닝 2021. 2. 9. 22:37
지도학습의 데이터 종류 : 구조적 데이터와 비구조적 데이터 구조적인 데이터와 비 구조적인 데이터로 나눌 수 있으며, 컴퓨터는 당연히 비구조적인 데이터를 다루기 어려워 한다. 그러나 딥러닝덕분에 컴퓨터가 비구조적인 데이터 , 예를들면 오디오나 이미지 , 문자와 같은 데이터를 더 잘 이해할 수 있게 되었다. 딥러닝이 발전한 이유 초기의 딥러닝 , 로지스틱 회귀와 같은 딥러닝의 경우 데이터의 양이 증가할수록 performance 가 증가하였으나 어느 일정수준이 되면 더이상 증가하지 않았다. 그러나 사람들의 디지털 기기 이용이 늘며 데이터 양이 증가함에 따라 , 그리고 신경망을 더 큰걸 사용하면 사용할수록 Performance 가 증가했다. 즉 단순히 규모를 증가시키는것이 딥러닝의 큰 발전을 가져왔다.
-
[딥러닝]1강. 딥러닝이란 무엇인가 ?IT&컴퓨터공학/딥러닝 2021. 2. 9. 21:59
딥러닝 전반에 대한 복습 차 Andrew Ng 의 딥러닝 강의를 들으며 정리해보려고 한다 ! 총 140강으로 약 2~3 주에 걸쳐 들을 예청이며 에드위드(edwith)에서 한글 자막을 달아주었으니 참고하면 좋을것같다 ! 딥러닝 신경망을 학습시키는것 선형회귀에 대해 알고있다면, 주택 사이즈에 따른 주택가격 예측 함수를 이렇게 그려볼 수 있다. 이 함수를 간단한 신경망으로 볼 수 있는데, 이렇게 하나의 '뉴런' 으로 표현할 수있으며, 이 뉴런에는 위에서 본 예측 함수가 들어간다. 이때 이렇게 계속 0을 유지하다가 올라가는 함수를 'ReLu' 함수라고 한다. ( 음수는 없음 ! ) 이런 뉴런이 여러개가 모여 큰 신경망을 이룬다. 예를들자면 방의 사이즈와 갯수는 가족이 몇명인지 나타낼 수 있으며 zip code..