교차검증 문제 | Notion

<aside>

( 1교시형 문제 )

```
 **교차검증(Cross-validation)**
```

</aside>

문1) 교차검증(Cross-validation)

답)

I. 모델의 일반화 성능 확보를 위한 교차검증의 개요

정의	머신러닝 모델의 일반화 성능(을 평가하기 위해, 데이터를 여러 번 반복적으로 학습 및 검증하는 방법
목적	• 모델 선택 및 성능 평가
• 소량 데이터의 신뢰 확보
• 일반화 성능 향상
• 과적합 방지

학습, 검증, 테스트 데이터 분할을 통해 모델의 최적 하이퍼파라미터를 선정하는 필수 과정임.

II. 데이터 분할 체계 및 교차검증 주요 기법

가. 데이터셋 분할 체계

데이터셋	활용 목적	분할 비율 (예시)
Training	모델의 가중치 학습 및 적합화 수행	70% (또는 60%)
Validation	하이퍼파라미터 튜닝 및 최적 모델 선택	15% (또는 20%)
Test	학습에 미사용된 데이터를 통한 최종 성능 평가	15% (또는 20%)

데이터셋 분할은 평가의 객관성을 확보하기 위한 필수 전처리 과정임.

나. 교차검증 주요 유형

유형	핵심 메커니즘	장점 및 주요 활용
Hold-Out	데이터를 훈련/검증/테스트로 1회 고정 분할	계산 비용 저렴, 대용량 데이터 적합
K-Fold	데이터를 K개 폴드로나누어 K번 반복 검증	데이터 활용도 극대화, 일반화 안정성
Stratified	클래스 비율을 유지하며 폴드 분할	불균형 데이터(Imbalanced) 필수 적용
LOOCV	1개 샘플만 검증, 나머지 전체 학습(N번 반복)	소량 데이터 최적화, 높은 계산 비용
Time-Series	시간 순서(Past ➔ Future)를 유지하며 분할	시계열 데이터(주가, 기상 등) 예측

데이터 특성에 최적화된 교차검증 기법을 선택하여 모델의 일반화 성능을 극대화해야 함

III. 교차검증 성능 극대화 및 과적합 방지 전략

<aside>

[ 교차검증 ] ➔ [ Grid / Random Search ] ➔ [ 최적 하이퍼파라미터 도출 ]

(K-Fold) (AutoML)

</aside>

교차검증 내부 전처리로 데이터 누수를 방지하고, AutoML로 일반화 성능을 향상해야 함.