<aside>

( 1교시형 문제 )

  1.  **교차검증(Cross-validation)**
    

</aside>

문1) 교차검증(Cross-validation)

답)

I. 모델의 일반화 성능 확보를 위한 교차검증의 개요

정의 머신러닝 모델의 일반화 성능(을 평가하기 위해, 데이터를 여러 번 반복적으로 학습 및 검증하는 방법
목적 • 모델 선택 및 성능 평가
• 소량 데이터의 신뢰 확보
• 일반화 성능 향상
• 과적합 방지

II. 데이터 분할 체계 및 교차검증 주요 기법

가. 데이터셋 분할 체계

데이터셋 활용 목적 분할 비율 (예시)
Training 모델의 가중치 학습 및 적합화 수행 70% (또는 60%)
Validation 하이퍼파라미터 튜닝 및 최적 모델 선택 15% (또는 20%)
Test 학습에 미사용된 데이터를 통한 최종 성능 평가 15% (또는 20%)

나. 교차검증 주요 유형

유형 핵심 메커니즘 장점 및 주요 활용
Hold-Out 데이터를 훈련/검증/테스트로 1회 고정 분할 계산 비용 저렴, 대용량 데이터 적합
K-Fold 데이터를 K개 폴드로나누어 K번 반복 검증 데이터 활용도 극대화, 일반화 안정성
Stratified 클래스 비율을 유지하며 폴드 분할 불균형 데이터(Imbalanced) 필수 적용
LOOCV 1개 샘플만 검증, 나머지 전체 학습(N번 반복) 소량 데이터 최적화, 높은 계산 비용
Time-Series 시간 순서(Past ➔ Future)를 유지하며 분할 시계열 데이터(주가, 기상 등) 예측

III. 교차검증 성능 극대화 및 과적합 방지 전략

<aside>

[ 교차검증 ] ➔ [ Grid / Random Search ] ➔ [ 최적 하이퍼파라미터 도출 ]

(K-Fold) (AutoML)

</aside>