-
[데이터분석실전] 라이브러리IT&컴퓨터공학/데이터분석개론 2021. 2. 16. 15:28
Scikit-learn
python을 대표하는 머신러닝 라이브러리이다. '사이킷런'이라고 부르기도 한다. scikit-learn은 오픈 소스로 공개되어 있으며, 개인, 비즈니스 관계없이 누구나 무료로 사용가능하다. scikit-learn은 현재도 활용하여 개발이 이루어지고 있으며, 인터넷 상에서 정보를 찾기에도 싶다. 많은 머신러닝 알고리즘이 구현되어 있는데, 어떤 알고리즘도 같은 방식으로 이용이 가능하다. 또, 샘플 데이터 셋(토이 데이터 셋)이 부속되어 있으므로, 설치하여 바로 기계 학습을 시험해볼 수 있다. 그러므로 초심자가 기계학습을 배우기 시작할 때 적합한 라이브러리라고 말한다.
NumPy
numpy는 Numerical Python의 약자이다.
파이썬의 고성능 과학 계산용 패키지로 Matrix와 Vector와 같은 Array 연산을 할때 사용하며 표준 라이브러리 처럼 사용하고있다. 한글로는 넘파이로 주로 통칭한다.
Pandas
Pandas는 파이썬에서 사용하는 데이터분석 라이브러리로, 행과 열로 이루어진 데이터 객체를 만들어 다룰 수 있게 되며 보다 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구다.
넘파이는 배열안에 항상 같은 데이터 타입이 들어가야하지만, Pandas 의 경우엔 각 컬럼마다 다른 데이터타입을 넣을 수 있다.
주로 DataFrame , series 를 사용하기위해 항상 import 하곤한다.
SciPy
파이썬에서 과학적인 계산을 위해 사용하는 함수들을 모아논 라이브러리다.
Matplotlib
matplotlib이란, 데이터 시각화 도구다.
넘파이가 텐서 계산, 판다스가 배열 저장 및 다루는데 특화되었다면, 멧플롯립은, 그 데이터들을 그래프와 같은 형태로 시각화해주는 부분을 담당한다.
'IT&컴퓨터공학 > 데이터분석개론' 카테고리의 다른 글
[데이터분석실전]NumPy (0) 2021.02.16 [데이터분석개론]Cluster Analysis (1) 2021.02.16 [데이터분석개론] Collaborative Filtering (0) 2021.02.15 [데이터분석개론] Association Rules & Collaborative Filtering (0) 2021.02.14 [데이터분석개론] Naïve Bayes Classifier. 나이브베이즈 분류 (0) 2021.02.13 댓글