이번 포스팅에서는 머신러닝/딥러닝 모델의 성능평가를 위해 훈련데이터셋을 나누는 이유와 방법에 대해 알아본다. WHY ? 인공지능 모델을 구축하면 실제 상황에 적용하기 전에 성능평가를 진행해야한다. 이때 훈련데이터 세트로 학습된 모델을 다시 훈련 데이터세트로 평가하면 높은 성능이 나올 것이다(과도하게 낙관적으로 일반화 성능이 추정되었다). 그 모델에는 이미 훈련데이터 셋에 맞는 규칙이 반영되었기 때문이다. 이런 문제를 해결하기 위해 훈련 데이터셋을 훈련용 데이터와 성능평가용 데이터로 나눈 후 성능평가 단계에서는 모델 학습에 이용하지 않은 성능평가용 데이터를 사용한다. 이때 훈련용 데이터를 훈련세트(training set), 성능평가용 데이터를 테스트세트(test set)이라고 한다. CONDITIONS! ..