모델의 예측 정확도 평가
절차
- 데이터 (X, y)를 사용하여 모형을 학습
- 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산
- 정답 y와 ${\hat y}$ 차이를 측정
1. 회귀모형의 정확도 평가 (강의자료 예시 직접 손계산 해볼 것)
RMSE (Rooted Mean Squared Error)
: 평균적으로 얼마나 떨어져 있는가
- 오차제곱의 평균의 루트
${RMSE = \sqrt{\sum_{i=1}^n\frac{(\hat y_i -y_i)^2}{n}}}$
- 모든 다양한 회귀모형에 공통으로 사용 가능
- Scale dependent 단위에 영향을 받는다. 절대적인 지표
R2 Score
: 회귀모형을 적용 후 실제 변수와 예측된 변수사이의 제곱합
${R^2=\frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS}}$
좋을 수록 1에 수렴.
- TSS: 평균과의 실제값의 편차
- ${\sum(y_i-\bar y)^2}$
- RSS: 예측값과 실체값의 잔차 ${\sum(y_i-\hat y)^2}$
- 0~1 사이의 점수로 측정 ( 🐶별로면 음수가 나올 수 있다)
- Scale-Free 단위에 영향을 받지않는다. 그저 비율, 상대적으로 해석되어야 한다.
그외에..
- Mean Absolute Error: ${\frac{1}{n}\sum_{i=1}^2|\hat y_i-y|}$
- Mean Absolute Percentage Error: ${\frac{1}{n}\sum_{i=1}^2\frac{|\hat y_i-y|}{y_i}}$
2. 분류모델의 정확도 평가 지표
: 정답이 Positive인 데이터를 Positive로 예측, 정답이 Negative인 데이터를 Negative로 예측
Confusion Matrix 선행
예측\실제 True False
Pos | TP | FP |
Neg | FN | TN |
Accuracy: 정확도
- ${\frac{TP+TN}{TP+FP+TN+FN}}$
Precision: 정밀도
: 양성이라고 예측한 것중 올바르게 예측한 비율
- 예측한 것중에 정답의 비율
- 제 2종 오류를 낮추는 것이 좋음 (X → O)
- 너무 정밀하면 Threshold가 느슨해짐.
- ${\frac{TP}{TP+FP}}$
- 예측\실제 True False
Pos TP FP Neg FN TN
Recall: 재현율
: 실제 양성중 양성을 찾아내는 비율
- 진짜 찾아야하는 것을 찾아야 해.
- 제 1종 오류를 낮추는 것이 좋음 (O → X)
- 너무 높으면 Threshold가 빡빡해짐.
- ${\frac{TP}{TP+FN}}$
- 예측\실제 True False
Pos TP FP Neg FN TN
ROC-AUC (Receiver Operating Characteristics)
X축 : 1- 정밀도
Y축: 재현율
- ROC-AUC: 커브가 그려내는 면적
- 클수록 더 좋은 분류기
그 외에..
F1 Score: 정밀도와 재현율의 조화평균
- ${\frac{2정밀도재현율}{정밀도*재현율}}$
- 조화평균은 두 지표간에 차이가 클 경우 패널티를 받음.
- → 균형있게 둘다 좋은 모델을 선택시, 사용.
end.
728x90
'학교생활 (프로젝트&강의정리) > 데이터 사이언스 (이지환 교수님) 2023-1' 카테고리의 다른 글
6. 교차검증 (Cross Validation) (1) | 2023.09.05 |
---|---|
5. 일반회귀와 과적합 (Generalization/Overfitting) (4) | 2023.09.05 |
3. 로지스틱 회귀모형 (Logistic Regression) (0) | 2023.07.28 |
2. 선형 회귀모형(Linear Regression) (1) | 2023.07.28 |
1. 프로세스, 머신러닝 모형의 분류 (1) | 2023.07.28 |