IT&컴퓨터공학
-
[데이터분석개론] PCA - Dimension Reduction 방법 중 하나IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 22:38
PCA ( 주성분 분석 ) Principal Component Analysis - PCA 는 input variables 를 분석해서 predictors 의 갯수를 줄이는데 아주 유용한 방법이다. - 데이터를 저 차원의 공간으로 project 시키는 방법이다. 즉, N 차원의 data 를 K 차원의 data로 맵핑시키는 것이며 이때 K는 N 보다 당연히 작거나 같다. - PCA는 only 숫자에만 사용이 가능하다. 따라서 카테고리형 변수는 다른 방법으로 dimension 을 줄여야한다. PCA 진행 방법 1. X축은 dimension1 , Y축은 dimension2 에 해당하는 데이터가 산포도로 찍혀있다. 서로 음의 상관관계를 나타내고있다. 2. 컴퓨터는 이제 선 하나를 그릴건데 , 해당 선은 가장 많은..
-
[데이터분석개론] Correlation Analysis . 상관관계 분석IT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:40
Covariance 와 Correlation Coefficinet 두 변수 간의 선형관계를 나타내주는 두 가지 특성이다. Covariance ( 공분산 ) : 내가 설명할 수 있는 변동의 크기. 두 가지 Dimension 이 얼마나 겹치냐 ? 를 나타냄 Correlation ( 상관계수 ) 두 변수 간의 상관관계는 3가지로 구분할 수 있다. ( 1 ~ -1 사이의 값으로 이루어짐 ) 1. 양의 상관관계 : 변수 X가 증가할 때 Y도 함께 증가한다. → 상관계수 > 0 2. 음의 상관관계 : 변수 X가 증가할 때 Y도 감소한다. → 상관계수 < 0 3. 상관관계 없음 : 변수 X와 Y는 상관이 없다. → 상관계수 = 0 , 공분산 = 0 상관관계 분석을 왜 이용하는가 ? - 데이터 셋의 Dimensions..
-
[데이터분석개론] Dimension ReductionIT&컴퓨터공학/데이터분석개론 2021. 2. 11. 19:08
머신러닝 공부를 위해 데이터분석개론 수업에서 들었던 내용을 정리해보려고 한다. 데이터분석개론 교수님이 너무 잘 가르쳐주셔서 다음 학기도 교수님 수업으로 들으려했는데 다른학교로 가셔서... 교수님 잘 지내시나요...ㅎㅎ 아무튼 여기에 열심히 기록해두고 두고두고 찾아봐야겠다. Dimension 하나하나의 Feature 들을 Dimension 이라고 한다. feature 는 데이터에서 '열'을 담당하며 만약 개인정보에 관한 데이터라면 그 사람이 나이, 이름, 직장 등등을 예로 들수 있다. 데이터가 들어갈때 변수화 되는것은 모두 feature 라고 부른다. Dimension Reduction 이 필요한 이유 - 우리는 데이터 홍수에서 살고있다. - 여러 변수들은 결국에는 같은 것을 설명하는 경우가 많으며 - 결..
-
[딥러닝] 2강. 지도학습의 데이터종류 , 왜 딥러닝이 발전할 수 있었는가?IT&컴퓨터공학/딥러닝 2021. 2. 9. 22:37
지도학습의 데이터 종류 : 구조적 데이터와 비구조적 데이터 구조적인 데이터와 비 구조적인 데이터로 나눌 수 있으며, 컴퓨터는 당연히 비구조적인 데이터를 다루기 어려워 한다. 그러나 딥러닝덕분에 컴퓨터가 비구조적인 데이터 , 예를들면 오디오나 이미지 , 문자와 같은 데이터를 더 잘 이해할 수 있게 되었다. 딥러닝이 발전한 이유 초기의 딥러닝 , 로지스틱 회귀와 같은 딥러닝의 경우 데이터의 양이 증가할수록 performance 가 증가하였으나 어느 일정수준이 되면 더이상 증가하지 않았다. 그러나 사람들의 디지털 기기 이용이 늘며 데이터 양이 증가함에 따라 , 그리고 신경망을 더 큰걸 사용하면 사용할수록 Performance 가 증가했다. 즉 단순히 규모를 증가시키는것이 딥러닝의 큰 발전을 가져왔다.
-
[딥러닝]1강. 딥러닝이란 무엇인가 ?IT&컴퓨터공학/딥러닝 2021. 2. 9. 21:59
딥러닝 전반에 대한 복습 차 Andrew Ng 의 딥러닝 강의를 들으며 정리해보려고 한다 ! 총 140강으로 약 2~3 주에 걸쳐 들을 예청이며 에드위드(edwith)에서 한글 자막을 달아주었으니 참고하면 좋을것같다 ! 딥러닝 신경망을 학습시키는것 선형회귀에 대해 알고있다면, 주택 사이즈에 따른 주택가격 예측 함수를 이렇게 그려볼 수 있다. 이 함수를 간단한 신경망으로 볼 수 있는데, 이렇게 하나의 '뉴런' 으로 표현할 수있으며, 이 뉴런에는 위에서 본 예측 함수가 들어간다. 이때 이렇게 계속 0을 유지하다가 올라가는 함수를 'ReLu' 함수라고 한다. ( 음수는 없음 ! ) 이런 뉴런이 여러개가 모여 큰 신경망을 이룬다. 예를들자면 방의 사이즈와 갯수는 가족이 몇명인지 나타낼 수 있으며 zip code..
-
[알고리즘] Level 3) 삼각달팽이 - C++IT&컴퓨터공학/자료구조&알고리즘 2021. 1. 26. 21:30
문제 설명 정수 n이 매개변수로 주어집니다. 다음 그림과 같이 밑변의 길이와 높이가 n인 삼각형에서 맨 위 꼭짓점부터 반시계 방향으로 달팽이 채우기를 진행한 후, 첫 행부터 마지막 행까지 모두 순서대로 합친 새로운 배열을 return 하도록 solution 함수를 완성해주세요. 제한사항 n은 1 이상 1,000 이하입니다. 입출력 예 4 [1,2,9,3,10,8,4,5,6,7] 5 [1,2,12,3,13,11,4,14,15,10,5,6,7,8,9] 6 [1,2,15,3,16,14,4,17,21,13,5,18,19,20,12,6,7,8,9,10,11] 접근방법 - 달팽이를 채우는 방법을 그대로 생각해보자 ! state 가 0 일때 : 아래로 이동 state 가 1 일때 : 오른쪽으로 이동 state 가 2..
-
[Git] Git Bash 란?IT&컴퓨터공학/GIT 2021. 1. 25. 14:06
당연하게 Git 을 사용해오다가 문득 왜 Git bash 를 사용하는지 궁금해졌다. Git bash git bash 는 window 의 cmd , linux와 mac 의 terminal 과 같은 역할을 한다. 그러나 운영체제마다 명령어가 다르다는 문제점이 있는데, 이를 극복한것이 바로 Git bash ! Git bash 를 이용하면 window 에서도 리눅스의 명령어를 쓸 수 있다. 따라서 mac 이나 리눅스를 사용하는 경우 기존 terminal 을 사용해도 무관하지만, 나같은 window 유저는 git bash 를 쓰는게 편리하다 ※ Git 을 시각화한 GUI 클라이언트 ( SourceTree, github desktop ) 등이 있지만 이미 Git bash 에 익숙해져서 아마 계속 bash 로 사용할..