[머신 러닝] Training Set, Validation Set, Test Set

머신러닝 알고리즘을 돌리다가 문득 지도학습이라는 단어에 대해서 위키에서 검색을 했는데,

>

…?! 내가 요즘 어떻게 코드를 찾아서 돌리고 있는 코드는 전부 Training Set, Test Set에서만 사용하다가 갑자기 Validation Set이라는 부분까지 있는 것을 발견했어.설마 지금까지 내가 돌린 코드가 뭔가 다 틀렸나? 망했나?라며 서둘러 Validation Set에 대해 검색해 봤다.Validation Set을 사용하는 이유는 위와 같이 모델의 성능을 평가하기 위해서인데, 내가 Training 시킨 모델이 잘 작동하는지를 하기 위해 Training Set의 일부분을 성능평가 데이터로 희생시키는 것이었다.

>

물론, Training 하는 데이터의 수가 너무 작으면 Cross Validation 방법을 사용할 수도 있다고 한다. 그리고 현재 내가 사용하는 데이터 수는 288개 정도 되는데….이 정도면 솔직히 Train과 Test로 구별하기에도 모자랄 것 같아.그래서 나중에 혹시 정말 많은 데이터를 가지고 코딩하면 3가지로 분류하지만.. 지금은 그냥 Training data 와 Testing data 로 진행해도 괜찮을 것 같아.