1. 데이터 과학(data science):
정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야
인공지능 → 머신러닝 → 딥러닝
2. 데이터사이언스 주요 프로세스
데이터 수집
특성(features): 데이터의 변수, 열
관측점(Observation): 특성에 따른 서로 다른 객체들 = 행
종속변수(dependent variable): y (= target variable)
독립변수(independent variable): X (= predictor)
모델 설정
y = β_0+β_1x
독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현.
- 회귀모형
- 로지스틱스 회귀모형
- K-Nearest Neighbor
- Support Vector Machine
- Random Forest
- 딥뉴럴네트워크
모델 학습
학습의 의미: 주어진 데이터를 가장 잘 나타내는 “파라미터”를 찾아나가는 과정
예측/추론
예측: 단순히 여러 X를 통해 y를 추측
추론: X와 y의 관계를 파악 (데이터의 생성과정을 설명할 수 있는 명확한 모델이 있을때 가능)
3. 머신러닝 모형의 분류
예측해야하는 값이 실수인가?
실수형 → 회기(Regression)
값의 차이가 의미 있다. ex) 나이: 34, 26, 19…
범주형 → 분류(Classification)
숫자간의 차이는 무의미
정답이 있는 데이터인가?
있음 → 지도학습(Supervised Learning)
없음 → 비지도학습(Unsupervised Learning)
- 군집분석(Clustering Analysis): 분류모델이자 비지도학습 (나이, 성별, 직업의 유사도에 따라 3개의 그룹으로 나눔)
- 이상치 탐지(anomaly detection): 회기모델이자 비지도학습 (새로운 데이터가 기존의 데이터에서 얼마나 벗어나 있는지 측정)
구분 지도학습 비지도 학습
정답 데이터 | 있음 | 없음 |
목적 | y 예측 | 패턴 발견 |
대표적인 모델 | 회귀, 분류, CNN, 객체탐지, Sequence 모델 | 군집, 차원축소, 이상치탐지 |
성능 평가 | 정확도, 혼동행렬 | 실루엣 계수, 엔트로피 |
패러미터로 모델을 표현할 수 있는가?
yes → Parametric Method
X(독립변수)와 y(종속변수)의 관계를 고정된 수의 패러미터로 표현할 수 있음.
no → Non-parametric Method
패러미터의 수가 고정되지 않고 데이터에 따라 달라짐.
함수적 형태를 가정하지 않는다.
ex) KNN Regression: 특정 X의 가장 가까운 K개 데이터의 y값을 평균내어 예측
end.
728x90
'학교생활 (프로젝트&강의정리) > 데이터 사이언스 (이지환 교수님) 2023-1' 카테고리의 다른 글
6. 교차검증 (Cross Validation) (1) | 2023.09.05 |
---|---|
5. 일반회귀와 과적합 (Generalization/Overfitting) (3) | 2023.09.05 |
4. 지도학습 모형의 평가 (Supervised Model Evaluation) (1) | 2023.09.05 |
3. 로지스틱 회귀모형 (Logistic Regression) (0) | 2023.07.28 |
2. 선형 회귀모형(Linear Regression) (0) | 2023.07.28 |