본문 바로가기
학교생활 (프로젝트&강의정리)/데이터 사이언스 (이지환 교수님) 2023-1

5. 일반회귀와 과적합 (Generalization/Overfitting)

by JejuSudal 2023. 9. 5.

모델(Model)

: 독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현한 것.

서로 다른 모델

: 독립변수와 종속변수에 대하여 다른 가정을 하면 서로 다른 모델이라고 할 수 있다.

  • 변수 사이 가정, 어떤 변수는 빼고, 포함할지..

모형 평가의 필요성

: 여러 모형에 동시에 적용할 수 있는 평가 지표가 필요하다.

절차

  1. 데이터 (X, y)를 사용하여 모형을 학습
  2. 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산
  3. 정답 y와 ${\hat y}$ 차이를 측정

실제 데이터 vs 관측된 데이터

  • 실제 데이터 (모름)
  • 관측된 데이터: 확보한 데이터 (샘플링)
  • Goal → 실제 데이터의 관계를 잘 표현하는 모형을 찾아야 한다.

모형의 유연성 (= 모델의 표현력)

: 모델에서 가정하는 차수가 커질수록 모델의 유연성이 커진다

  • 더 복잡한 패턴을 표현할 수 있어서
  • [train data]에 대한 정확도가 높아짐.
  • 분류문제에서의 과적합
  • : 서로 다른 label의 경계선이 울퉁불퉁할 수록 유연한 모델

→ Overfitting 과적합 발생함

: 모델이 학습에 사용된 데이터를 지나치게 충실하게 표현

  • 실제 데이터에 대한 일반화에 실패한다.

vs Underfitting 과소적합

: 모델이 데이터에 지나치게 단순하게 표현

  • 이것 또한 학습이 덜 된거라서 실제 데이터에 대한 일반화에 실패한 것.

→ 우리는 관측된 데이터가 아니라 실제 데이터에 대한 예측 성능이 좋아야한다.

모델의 일반화 능력 측정 방법

: 과적합과 과소적합 둘다 피하기 위해 모델의 일반화 능력 측정 필요

→ 관측된 데이터를 Training data(학습용), Testing data(일반화 능력 검증)로 나눔

  1. 데이터 나누기
  2. 훈련데이터로 모델 학습
  3. 테스트 데이터로 모델 정확도 측정 (${RMSE, ~R^2}$)
  • 같은 데이터에 대해 서로 다른 모델 가정 → 가장 정확도가 높은 모델 선정
  • Underfitting (High bias)
  • train, test 모두 정확도 떨어짐. 지나치게 단순.
  • Overfitting (High variance)
  • train 매우 높음, test 정확도 떨어짐. → 일반화 어려움.

end.

728x90