<aside>
( 1교시형 문제 )
**교차검증(Cross-validation)**
</aside>
문1) 교차검증(Cross-validation)
답)
I. 모델의 일반화 성능 확보를 위한 교차검증의 개요
| 정의 | 머신러닝 모델의 일반화 성능(을 평가하기 위해, 데이터를 여러 번 반복적으로 학습 및 검증하는 방법 |
|---|---|
| 목적 | • 모델 선택 및 성능 평가 |
| • 소량 데이터의 신뢰 확보 | |
| • 일반화 성능 향상 | |
| • 과적합 방지 |
II. 데이터 분할 체계 및 교차검증 주요 기법
가. 데이터셋 분할 체계
| 데이터셋 | 활용 목적 | 분할 비율 (예시) |
|---|---|---|
| Training | 모델의 가중치 학습 및 적합화 수행 | 70% (또는 60%) |
| Validation | 하이퍼파라미터 튜닝 및 최적 모델 선택 | 15% (또는 20%) |
| Test | 학습에 미사용된 데이터를 통한 최종 성능 평가 | 15% (또는 20%) |
나. 교차검증 주요 유형
| 유형 | 핵심 메커니즘 | 장점 및 주요 활용 |
|---|---|---|
| Hold-Out | 데이터를 훈련/검증/테스트로 1회 고정 분할 | 계산 비용 저렴, 대용량 데이터 적합 |
| K-Fold | 데이터를 K개 폴드로나누어 K번 반복 검증 | 데이터 활용도 극대화, 일반화 안정성 |
| Stratified | 클래스 비율을 유지하며 폴드 분할 | 불균형 데이터(Imbalanced) 필수 적용 |
| LOOCV | 1개 샘플만 검증, 나머지 전체 학습(N번 반복) | 소량 데이터 최적화, 높은 계산 비용 |
| Time-Series | 시간 순서(Past ➔ Future)를 유지하며 분할 | 시계열 데이터(주가, 기상 등) 예측 |
III. 교차검증 성능 극대화 및 과적합 방지 전략
<aside>
[ 교차검증 ] ➔ [ Grid / Random Search ] ➔ [ 최적 하이퍼파라미터 도출 ]
(K-Fold) (AutoML)
</aside>