본문 바로가기
학교생활 (프로젝트&강의정리)/데이터 사이언스 (이지환 교수님) 2023-1

4. 지도학습 모형의 평가 (Supervised Model Evaluation)

by JejuSudal 2023. 9. 5.

모델의 예측 정확도 평가

절차

  1. 데이터 (X, y)를 사용하여 모형을 학습
  2. 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산
  3. 정답 y와 ${\hat y}$ 차이를 측정

1. 회귀모형의 정확도 평가 (강의자료 예시 직접 손계산 해볼 것)

RMSE (Rooted Mean Squared Error)

: 평균적으로 얼마나 떨어져 있는가

  • 오차제곱의 평균의 루트

${RMSE = \sqrt{\sum_{i=1}^n\frac{(\hat y_i -y_i)^2}{n}}}$

  • 모든 다양한 회귀모형에 공통으로 사용 가능
  • Scale dependent 단위에 영향을 받는다. 절대적인 지표

R2 Score

: 회귀모형을 적용 후 실제 변수와 예측된 변수사이의 제곱합

${R^2=\frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS}}$

좋을 수록 1에 수렴.

  • TSS: 평균과의 실제값의 편차
  • ${\sum(y_i-\bar y)^2}$
  • RSS: 예측값과 실체값의 잔차 ${\sum(y_i-\hat y)^2}$
  • 0~1 사이의 점수로 측정 ( 🐶별로면 음수가 나올 수 있다)
  • Scale-Free 단위에 영향을 받지않는다. 그저 비율, 상대적으로 해석되어야 한다.

그외에..

  • Mean Absolute Error: ${\frac{1}{n}\sum_{i=1}^2|\hat y_i-y|}$
  • Mean Absolute Percentage Error: ${\frac{1}{n}\sum_{i=1}^2\frac{|\hat y_i-y|}{y_i}}$

2. 분류모델의 정확도 평가 지표

: 정답이 Positive인 데이터를 Positive로 예측, 정답이 Negative인 데이터를 Negative로 예측

Confusion Matrix 선행

예측\실제 True False

Pos TP FP
Neg FN TN

Accuracy: 정확도

  • ${\frac{TP+TN}{TP+FP+TN+FN}}$

Precision: 정밀도

: 양성이라고 예측한 것중 올바르게 예측한 비율

  • 예측한 것중에 정답의 비율
  • 제 2종 오류를 낮추는 것이 좋음 (X → O)
  • 너무 정밀하면 Threshold가 느슨해짐.
  • ${\frac{TP}{TP+FP}}$
  • 예측\실제 True False 
    Pos TP FP
    Neg FN TN

Recall: 재현율

: 실제 양성중 양성을 찾아내는 비율

  • 진짜 찾아야하는 것을 찾아야 해.
  • 제 1종 오류를 낮추는 것이 좋음 (O → X)
  • 너무 높으면 Threshold가 빡빡해짐.
  • ${\frac{TP}{TP+FN}}$
  • 예측\실제 True False
    Pos TP FP
    Neg FN TN

ROC-AUC (Receiver Operating Characteristics)

X축 : 1- 정밀도

Y축: 재현율

  • ROC-AUC: 커브가 그려내는 면적
  • 클수록 더 좋은 분류기

그 외에..

F1 Score: 정밀도와 재현율의 조화평균

  • ${\frac{2정밀도재현율}{정밀도*재현율}}$
  • 조화평균은 두 지표간에 차이가 클 경우 패널티를 받음.
  • → 균형있게 둘다 좋은 모델을 선택시, 사용.

end.

728x90