[실습편] 중공업 수주 여부 예측
과제 유형
이진분류 (Binary Classification) 과제 : 수주여부 분류
Data 소개
선박수주여부 국제 환율, 유가정보
Train: 12개 column. 2,135개 Row
Feature 내용 : 유사선박수주경험, 국제유가, 환율정보, 선주사, 선종 등
결측치 처리
- Drop
- Fill
히트맵 상관관계 분석
order_yn을 ordinary 인코딩하여 feature와 상관관계를 표시한 결과, ship_size가 클수록 수주율이 높다는 것을 알 수 있다.
또한, 상관관계가 음으로 높은 feature은 order_backlog 수주잔고이다. 수주잔고란 배를 만들 수 있는 창고의 크기를 의미하는데, 크기가 클수록 공격적으로 입찰하지 않으므로, 수주가 잘 되지 않을 수 있는 상관성이 있다.
딥러닝 하이퍼 파라미터 설정
Dropout: Overfitting을 방지하기 위해 사용하는 테크닉
신경망 Fully Connected 연결을 Random 하게 일부 끊고 학습한다.
Optimizer : Loss 함수의 최적의 Gradient값을 찾는 알고리즘
ADAM(Adoptive Momentum): 기존 방향이 이동하던 방향대로 관성에 따라 Step을 이동(Momentum)
+ 각 Feature별 기울기의 개선정도를 반영하여 이동하는 Step의 크기를 보정 (Adoptive)
SGD(Stochastic GD) : Loss Gradient 계산 시, 전체 Data에 대해 Gradient를 계산하는 것이 아닌 Mini batch Date에 대해 Gradient를 계산하여 빠르게 Gradient를 계산, 최적의 Loss 획득
Learning Rate : Gradient을 위해 이동하는 보폭
학습 속도 등을 고려하여, 파라미터 선택 필요 (대개 0.01, 0.001, 0.0001중 선택)
AI 과제 유형별 성능평가 지표
암환자 같은 경우엔 Recall(재현율)이 높아야한다. 위음성을 줄여야함..
스팸메일의 경우엔, Precision(정밀도)이 높아야한다.