Yet Never Lose Faith

- Good to Great , Jim Collins

How To Preprocess Image Data 자세히보기

박스플롯 2

[데이터 전처리] 스케일 조정

이번 포스팅에서는 AI 모델을 구현할 때, 데이터 전처리 단계에서 스케일 조정을 해야하는 이유와 방법에 대해서 다룬다. 데이터 전처리가 필요한 이유? 사이킷런과 같은 머신러닝 패키지에 준비되어있는 데이터는 대부분 실습을 위한 것이므로 잘 가공되어 있다. 하지만 실전에서 수집된 데이터는 그렇지 않다. 누락된 값이 있을 수도 있고 데이터의 형태가 균일하지 않을 수도 있다. 이런 데이터들을 그대로 사용하면 제대로 결과를 얻을 수 없다. 이런 경우 데이터를 적절히 가공하는 데이터 전처리(Data preprocessing) 과정이 필요하다. 그런데, 잘 정리된 데이터에 대해서도 전처리를 해야하는 경우가 생기는데, 바로 특성의 스케일이 다른 경우이다. 스케일이란 어떤 특성이 가지고 있는 값의 범위를 말한다. 예를 ..

[데이터 탐색] 데이터 탐색에 유용한 함수 2탄 - boxplot(), unique()

이번 포스팅에서는 데이터 탐색에 쓰이는 함수 2가지를 알아본다. 샘플 데이터 로드 from sklearn.datasets import load_breast_cancer cancer = load_breast_cancer() cancer 사이킷 런에서 제공하는 위스콘신 유방암 데이터 세트를 사용했다. 유방암 데이터 세트에는 유방암 세포의 특징 10개에 대해 평균, 표준오차, 최대 이상치가 기록되어 있다. 또한 각 세포가 악성종양(1)인지 정상종양(0)인지에 대한 정보가 target 데이터에 담겨있다. boxplot() # 박스플롯 그리기 import matplotlib.pyplot as plt plt.boxplot(cancer.data) plt.xlabel('feature') plt.ylabel('value..