Notice
Recent Posts
Recent Comments
Link
반응형
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- text embedding
- pytorch forward
- pytorch hook
- 파이썬
- pytorch
- feature vector
- 환급기원
- 알파고
- Python
- document parsing
- 오블완
- AlphaGo
- 순열
- document layout analysis
- 티스토리챌린지
- 스페인어학습지
- 문서 파싱
- pytorch forward 디버깅
- 강화학습
- pytorch forward 연산
- Monte Carlo
- OCR
- 대조학습
- MTBE
- permutations
- metric learning
- 스터디미니
- MCTS
- 딥러닝
- TensorFlow
Archives
- Today
- Total
Learn And Earn
머신러닝 면접 : Overfitting, Precision, Recall 본문
반응형
Overfitting(과적합)은 모델이 학습 데이터에 지나치게 잘 맞도록 학습되어, 새로운 데이터(테스트 데이터나 실세계 데이터)에 일반화하지 못하는 상태를 말합니다. Precision(정밀도)과 Recall(재현율)은 모델 성능을 평가하는 데 사용되는 지표이며, 특히 분류 문제에서 자주 사용됩니다. 이들 지표는 Overfitting과 다음과 같은 관계를 가집니다.
Precision과 Recall의 개념
- Precision: 모델이 Positive로 예측한 샘플 중 실제로 Positive인 샘플의 비율입니다.
- 즉, Precision = TP / (TP + FP)
- 높은 Precision은 False Positives, 즉 음성 샘플을 양성으로 분류하는 오류가 적음을 의미합니다.
- Recall: 실제 Positive인 샘플 중 모델이 Positive로 정확히 예측한 비율입니다.
- 즉, Recall = TP / (TP + FN)
- 높은 Recall은 실제 양성 샘플을 놓치는 오류가 적음을 뜻합니다.
Overfitting과 Precision, Recall
Overfitting된 모델은 학습 데이터에 대해 Precision과 Recall 모두에서 좋은 성능을 보일 수 있습니다. 이는 모델이 학습 데이터의 패턴을 지나치게 세세하게 학습한 결과입니다. 그러나 Overfitting은 다음과 같은 문제를 야기합니다:
- 테스트 데이터에서 성능 저하
Overfitting된 모델은 학습 데이터에서 높은 Precision과 Recall을 보이지만, 새로운 데이터에서는 일반화되지 않기 때문에 Precision과 Recall이 모두 낮아질 가능성이 큽니다. - Precision과 Recall 간의 균형 문제
Overfitting이 발생하면 모델이 학습 데이터의 특정 패턴에 치우쳐, 한쪽 지표(예: Precision)를 지나치게 강조하거나 다른 지표(예: Recall)를 희생할 수 있습니다.- 예: 학습 데이터에서 Positive와 Negative를 완벽히 구분하려다 Recall은 높지만 False Positives를 지나치게 많이 생성해 Precision이 낮아질 수 있습니다.
- 모두 참으로 분류하는 분류기 -> recall = 1, recall = P(양성 샘플 개수)/D(데이터셋 크기)
- 예: 학습 데이터에서 Positive와 Negative를 완벽히 구분하려다 Recall은 높지만 False Positives를 지나치게 많이 생성해 Precision이 낮아질 수 있습니다.
- Bias-Variance Tradeoff의 영향
Overfitting은 분산이 높은 상태를 의미합니다. 이로 인해 모델이 작은 변화에도 민감하게 반응하며, 이는 테스트 데이터에서 Precision과 Recall 모두 예측이 불안정해지는 결과를 초래합니다.
예제: 암 진단 모델
암 진단 모델을 예로 들어 설명하겠습니다:
- Precision: 양성(암)으로 진단된 환자 중 실제 암 환자의 비율
- Recall: 실제 암 환자 중 양성으로 진단된 환자의 비율
Overfitting된 모델은 학습 데이터에서 암 환자를 매우 잘 예측(Precision, Recall 모두 높음)하지만, 실제 병원에서 새로운 환자 데이터를 사용할 때 암이 아닌 환자를 암으로 진단하거나(Precision 낮아짐), 암 환자를 암이 아니라고 진단(Recall 낮아짐)할 위험이 있습니다.
결론
Overfitting은 Precision과 Recall의 균형뿐만 아니라 두 지표의 일반화 능력을 해칠 수 있습니다. 이를 방지하려면 적절한 정규화, 더 많은 데이터 확보, 교차 검증, 또는 단순한 모델을 선택하여 Overfitting을 완화해야 합니다. 이렇게 하면 Precision과 Recall 모두에서 테스트 데이터에서의 성능이 개선될 수 있습니다.
반응형
Comments