lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

lesson13Title

lesson14Title

lesson15Title

pythonDataAnalysisAdvancedChapter4Title

pythonDataAnalysisAdvancedChapter1Title

pythonDataAnalysisAdvancedChapter2Title

pythonDataAnalysisAdvancedChapter3Title

# 교차 검증이란?

`교차 검증`은 데이터셋을 여러 부분(폴드)으로 나누고 다양한 조합으로 학습/평가를 수행하여 모델 성능을 추정하는 기법입니다.

예를 들어, `k-폴드 교차 검증`은 다음과 같이 진행합니다.

1. 데이터를 *k*개의 폴드로 나눕니다.
2. 각 폴드에 대해:
   - *k-1*개의 폴드로 모델을 학습합니다.
   - 남은 1개의 폴드로 모델을 평가합니다.
3. 각 반복의 결과를 평균 내어 더 신뢰할 수 있는 성능 추정치를 얻습니다.

<br/>

## 흔한 교차 검증 종류

- `K-폴드 교차 검증`: 가장 일반적이며 데이터를 *k*개의 동일한 크기의 폴드로 나눕니다.
- `층화 K-폴드`: 각 폴드에서 클래스 비율을 유지합니다(분류 문제에서 중요).
- `LOO(Leave-One-Out)`: 각 관측치를 하나씩 테스트로 사용합니다.
- `ShuffleSplit`: 복원 추출로 임의 분할을 수행합니다.

<br/>

## 교차 검증으로 모델 비교하기

다음 예시는 교차 검증으로 두 모델을 비교하고 평균 정확도가 가장 높은 모델을 선택하는 방법을 보여줍니다.

```python title="교차 검증 예제"
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

# 데이터 불러오기
iris = load_iris()
X, y = iris.data, iris.target

# 모델 정의
log_reg = LogisticRegression(max_iter=200)
knn = KNeighborsClassifier(n_neighbors=5)

# 교차 검증
log_scores = cross_val_score(log_reg, X, y, cv=5)
knn_scores = cross_val_score(knn, X, y, cv=5)

print(f"로지스틱 회귀 평균 정확도: {log_scores.mean():.3f}")
print(f"KNN 평균 정확도: {knn_scores.mean():.3f}")
```

> 이 예제는 `5-폴드 교차 검증`을 사용해 두 모델을 비교하고, 평균 정확도가 더 높은 모델을 선택합니다.

<br/>

## 핵심 정리

* 모델 선택은 정확도와 효율성 모두에서 가장 적합한 모델을 고르는 과정입니다.
* 교차 검증은 실제 환경에서의 성능을 더 견고하게 추정합니다.
* 공정한 비교를 위해 모델을 비교할 때는 항상 동일한 교차 검증 전략을 사용할 수 있습니다.

교차 검증은 주로 모델이 보지 못한 데이터에서 어떻게 성능을 내는지 평가하는 데 사용됩니다. 데이터셋을 여러 하위 집합으로 나누고 다양한 조합에서 모델을 실행함으로써, 단일 분할로 훈련과 테스트를 하는 경우보다 모델의 효과성을 더 정확하게 추정할 수 있습니다. 이 방법은 모델이 학습 데이터에 과적합되지 않고 잘 일반화되는지 확인하는 데 중요합니다.

### 모델 선택에서 교차 검증을 사용하는 주된 목적은 무엇인가요?