모델(Model)
: 독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현한 것.
서로 다른 모델
: 독립변수와 종속변수에 대하여 다른 가정을 하면 서로 다른 모델이라고 할 수 있다.
- 변수 사이 가정, 어떤 변수는 빼고, 포함할지..
모형 평가의 필요성
: 여러 모형에 동시에 적용할 수 있는 평가 지표가 필요하다.
절차
- 데이터 (X, y)를 사용하여 모형을 학습
- 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산
- 정답 y와 ${\hat y}$ 차이를 측정
실제 데이터 vs 관측된 데이터
- 실제 데이터 (모름)
- 관측된 데이터: 확보한 데이터 (샘플링)
- Goal → 실제 데이터의 관계를 잘 표현하는 모형을 찾아야 한다.
모형의 유연성 (= 모델의 표현력)
: 모델에서 가정하는 차수가 커질수록 모델의 유연성이 커진다
- 더 복잡한 패턴을 표현할 수 있어서
- [train data]에 대한 정확도가 높아짐.
- 분류문제에서의 과적합
- : 서로 다른 label의 경계선이 울퉁불퉁할 수록 유연한 모델
→ Overfitting 과적합 발생함
: 모델이 학습에 사용된 데이터를 지나치게 충실하게 표현
- 실제 데이터에 대한 일반화에 실패한다.
vs Underfitting 과소적합
: 모델이 데이터에 지나치게 단순하게 표현
- 이것 또한 학습이 덜 된거라서 실제 데이터에 대한 일반화에 실패한 것.
→ 우리는 관측된 데이터가 아니라 실제 데이터에 대한 예측 성능이 좋아야한다.
모델의 일반화 능력 측정 방법
: 과적합과 과소적합 둘다 피하기 위해 모델의 일반화 능력 측정 필요
→ 관측된 데이터를 Training data(학습용), Testing data(일반화 능력 검증)로 나눔
- 데이터 나누기
- 훈련데이터로 모델 학습
- 테스트 데이터로 모델 정확도 측정 (${RMSE, ~R^2}$)
- 같은 데이터에 대해 서로 다른 모델 가정 → 가장 정확도가 높은 모델 선정
- Underfitting (High bias)
- train, test 모두 정확도 떨어짐. 지나치게 단순.
- Overfitting (High variance)
- train 매우 높음, test 정확도 떨어짐. → 일반화 어려움.
end.
728x90
'학교생활 (프로젝트&강의정리) > 데이터 사이언스 (이지환 교수님) 2023-1' 카테고리의 다른 글
8. KNN (0) | 2023.09.05 |
---|---|
6. 교차검증 (Cross Validation) (1) | 2023.09.05 |
4. 지도학습 모형의 평가 (Supervised Model Evaluation) (1) | 2023.09.05 |
3. 로지스틱 회귀모형 (Logistic Regression) (0) | 2023.07.28 |
2. 선형 회귀모형(Linear Regression) (1) | 2023.07.28 |