Yet Never Lose Faith

- Good to Great , Jim Collins

How To Preprocess Image Data 자세히보기

데이터탐색 2

[데이터 탐색] 데이터 탐색에 유용한 함수 2탄 - boxplot(), unique()

이번 포스팅에서는 데이터 탐색에 쓰이는 함수 2가지를 알아본다. 샘플 데이터 로드 from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() cancer 사이킷 런에서 제공하는 위스콘신 유방암 데이터 세트를 사용했다. 유방암 데이터 세트에는 유방암 세포의 특징 10개에 대해 평균, 표준오차, 최대 이상치가 기록되어 있다. 또한 각 세포가 악성종양(1)인지 정상종양(0)인지에 대한 정보가 target 데이터에 담겨있다. boxplot() # 박스플롯 그리기 import matplotlib.pyplot as plt plt.boxplot(cancer.data) plt.xlabel('feature') plt.ylabel('value..

[데이터 탐색] 데이터 탐색을 위한 파이썬 명령어 3가지

이번 포스팅에서는 기본적인 데이터탐색에 사용할 수 있는 파이썬 명령어 3가지를 다룬다. 우선, 예시에서 사용할 데이터를 세팅해보자. 사이킷런에서 제공하는 당뇨병 환자의 데이터 세트를 로드해서 사용하겠다. 로드한 데이터 셋은 diabetes라는 변수에 저장했다. from sklearn.datasets import load_diabetes diabetes = load_diabetes() | 1. numpy 배열의 shape 속성 머신러닝에서는 데이터를 넘파이 배열로 저장하는 경우가 많다. 넘파이 배열의 shape 속성은 배열의 크기 정보를 담고있다. 배열의 크기정보를 통해서 우리는 데이터 세트에서 샘플의 개수와 특성의 수를 파악할 수 있다. 샘플이란 데이터 1 세트를 의미하고, 특성이란 한 샘플의 여러 특징..