Yet Never Lose Faith

- Good to Great , Jim Collins

How To Preprocess Image Data 자세히보기

Shape 2

[모델 평가] 훈련데이터셋 나누기 (feat.train_test_split())

이번 포스팅에서는 머신러닝/딥러닝 모델의 성능평가를 위해 훈련데이터셋을 나누는 이유와 방법에 대해 알아본다. WHY ? 인공지능 모델을 구축하면 실제 상황에 적용하기 전에 성능평가를 진행해야한다. 이때 훈련데이터 세트로 학습된 모델을 다시 훈련 데이터세트로 평가하면 높은 성능이 나올 것이다(과도하게 낙관적으로 일반화 성능이 추정되었다). 그 모델에는 이미 훈련데이터 셋에 맞는 규칙이 반영되었기 때문이다. 이런 문제를 해결하기 위해 훈련 데이터셋을 훈련용 데이터와 성능평가용 데이터로 나눈 후 성능평가 단계에서는 모델 학습에 이용하지 않은 성능평가용 데이터를 사용한다. 이때 훈련용 데이터를 훈련세트(training set), 성능평가용 데이터를 테스트세트(test set)이라고 한다. CONDITIONS! ..

[데이터 탐색] 데이터 탐색을 위한 파이썬 명령어 3가지

이번 포스팅에서는 기본적인 데이터탐색에 사용할 수 있는 파이썬 명령어 3가지를 다룬다. 우선, 예시에서 사용할 데이터를 세팅해보자. 사이킷런에서 제공하는 당뇨병 환자의 데이터 세트를 로드해서 사용하겠다. 로드한 데이터 셋은 diabetes라는 변수에 저장했다. from sklearn.datasets import load_diabetes diabetes = load_diabetes() | 1. numpy 배열의 shape 속성 머신러닝에서는 데이터를 넘파이 배열로 저장하는 경우가 많다. 넘파이 배열의 shape 속성은 배열의 크기 정보를 담고있다. 배열의 크기정보를 통해서 우리는 데이터 세트에서 샘플의 개수와 특성의 수를 파악할 수 있다. 샘플이란 데이터 1 세트를 의미하고, 특성이란 한 샘플의 여러 특징..