Yet Never Lose Faith

- Good to Great , Jim Collins

How To Preprocess Image Data 자세히보기

훈련세트 2

[모델 튜닝] K-폴드 교차검증

이번 포스팅에서는 전체 샘플 데이터의 개수가 많지 않을 때 데이터를 부풀리는 방법인 교차검증(Cross Validation)에 대해서 다룬다. Why? 훈련시킬 데이터의 개수가 부족하면 머신러닝 모델이 다양한 패턴을 학습하지 못하기 때문에 성능 높은 모델을 만들기 어렵다. 현실에서는 원하는 데이터를 충분하게 확보하기 어려운 경우가 많기 때문에 데이터의 특성은 유지하면서 데이터의 양을 늘리는 기법이 필수적이다. 교차검증도 그러한 방법 중 하나이다. How? 기존방식 이전 포스팅까지 사용했던 방식은 전체 데이터를 8:2로 나눠 훈련세트를 얻은 후, 이 훈련세트를 다시 8:2로 분할해 검증세트로 사용했다. 전체 데이터가 100개라고 가정하면 60개의 데이터만 훈련에 사용할 수 있던 셈이다. K-폴드 교차검증 ..

[모델 튜닝] 머신러닝/딥러닝 Validation Set 만드는 이유와 방법

이번 포스팅에서는 머신러닝 모델을 구현할 때 Validation Set을 만드는 이유와 방법을 다룬다. | Validation Set이란? Validation Set을 직역하면 '검증데이터 집합'이다. 글자 그대로 '머신러닝 모델을 검증하기 위한 데이터셋' 즉, 성능 평가를 위한 데이터 셋이라고 보면 된다. 보통 위 그림과 같이 전체 데이터 셋의 20% 정도 떼어서 만든다. 그냥 Test Set으로 성능 평가하면 되는 거 아니야? Nope! 이는 하나의 머신러닝 모델을 구축하는 프로세스를 이해하면 쉽게 이해가 될 것이다. 모델검증과 모델평가는 분리해서 생각해야한다. 모델 검증은 모델의 성능을 평가하고, 그 결과를 토대로 모델을 튜닝하는 작업을 진행한다. 반면 모델 평가는 최종적으로 '이 모델이 실전에서 ..