Learn And Earn

머신러닝 면접 : Overfitting, Precision, Recall 본문

컴퓨터/머신러닝

머신러닝 면접 : Overfitting, Precision, Recall

Determined 2024. 12. 2. 18:32
반응형

 

Overfitting(과적합)은 모델이 학습 데이터에 지나치게 잘 맞도록 학습되어, 새로운 데이터(테스트 데이터나 실세계 데이터)에 일반화하지 못하는 상태를 말합니다. Precision(정밀도)과 Recall(재현율)은 모델 성능을 평가하는 데 사용되는 지표이며, 특히 분류 문제에서 자주 사용됩니다. 이들 지표는 Overfitting과 다음과 같은 관계를 가집니다.


Precision과 Recall의 개념

  • Precision: 모델이 Positive로 예측한 샘플 중 실제로 Positive인 샘플의 비율입니다.
    • 즉,   Precision = TP / (TP + FP)
    • 높은 Precision은 False Positives, 즉 음성 샘플을 양성으로 분류하는 오류가 적음을 의미합니다.
  • Recall: 실제 Positive인 샘플 중 모델이 Positive로 정확히 예측한 비율입니다.
    • 즉,  Recall = TP / (TP + FN)
    • 높은 Recall은 실제 양성 샘플을 놓치는 오류가 적음을 뜻합니다.

Overfitting과 Precision, Recall

Overfitting된 모델은 학습 데이터에 대해 Precision과 Recall 모두에서 좋은 성능을 보일 수 있습니다. 이는 모델이 학습 데이터의 패턴을 지나치게 세세하게 학습한 결과입니다. 그러나 Overfitting은 다음과 같은 문제를 야기합니다:

  1. 테스트 데이터에서 성능 저하
    Overfitting된 모델은 학습 데이터에서 높은 Precision과 Recall을 보이지만, 새로운 데이터에서는 일반화되지 않기 때문에 Precision과 Recall이 모두 낮아질 가능성이 큽니다.

  2. Precision과 Recall 간의 균형 문제
    Overfitting이 발생하면 모델이 학습 데이터의 특정 패턴에 치우쳐, 한쪽 지표(예: Precision)를 지나치게 강조하거나 다른 지표(예: Recall)를 희생할 수 있습니다.
    • 예: 학습 데이터에서 PositiveNegative를 완벽히 구분하려다 Recall은 높지만 False Positives를 지나치게 많이 생성해 Precision이 낮아질 수 있습니다.
      • 모두 참으로 분류하는 분류기 -> recall = 1, recall = P(양성 샘플 개수)/D(데이터셋 크기)
  3. Bias-Variance Tradeoff의 영향
    Overfitting은 분산이 높은 상태를 의미합니다. 이로 인해 모델이 작은 변화에도 민감하게 반응하며, 이는 테스트 데이터에서 Precision과 Recall 모두 예측이 불안정해지는 결과를 초래합니다.

예제: 암 진단 모델

암 진단 모델을 예로 들어 설명하겠습니다:

  • Precision: 양성(암)으로 진단된 환자 중 실제 암 환자의 비율
  • Recall: 실제 암 환자 중 양성으로 진단된 환자의 비율

Overfitting된 모델은 학습 데이터에서 암 환자를 매우 잘 예측(Precision, Recall 모두 높음)하지만, 실제 병원에서 새로운 환자 데이터를 사용할 때 암이 아닌 환자를 암으로 진단하거나(Precision 낮아짐), 암 환자를 암이 아니라고 진단(Recall 낮아짐)할 위험이 있습니다.


결론

Overfitting은 Precision과 Recall의 균형뿐만 아니라 두 지표의 일반화 능력을 해칠 수 있습니다. 이를 방지하려면 적절한 정규화, 더 많은 데이터 확보, 교차 검증, 또는 단순한 모델을 선택하여 Overfitting을 완화해야 합니다. 이렇게 하면 Precision과 Recall 모두에서 테스트 데이터에서의 성능이 개선될 수 있습니다.

반응형
Comments