본문 바로가기
학교생활 (프로젝트&강의정리)/데이터 사이언스 (이지환 교수님) 2023-1

1. 프로세스, 머신러닝 모형의 분류

by JejuSudal 2023. 7. 28.

1. 데이터 과학(data science):

정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야

인공지능 → 머신러닝 → 딥러닝

2. 데이터사이언스 주요 프로세스

데이터 수집

특성(features): 데이터의 변수, 열

관측점(Observation): 특성에 따른 서로 다른 객체들 = 행

종속변수(dependent variable): y (= target variable)

독립변수(independent variable): X (= predictor)

모델 설정

y = β_0+β_1x

독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현.

  • 회귀모형
  • 로지스틱스 회귀모형
  • K-Nearest Neighbor
  • Support Vector Machine
  • Random Forest
  • 딥뉴럴네트워크

모델 학습

학습의 의미: 주어진 데이터를 가장 잘 나타내는 “파라미터”를 찾아나가는 과정

예측/추론

예측: 단순히 여러 X를 통해 y를 추측

추론: X와 y의 관계를 파악 (데이터의 생성과정을 설명할 수 있는 명확한 모델이 있을때 가능)

3. 머신러닝 모형의 분류

예측해야하는 값이 실수인가?

실수형 → 회기(Regression)

값의 차이가 의미 있다. ex) 나이: 34, 26, 19…

범주형 → 분류(Classification)

숫자간의 차이는 무의미

정답이 있는 데이터인가?

있음 → 지도학습(Supervised Learning)

없음 → 비지도학습(Unsupervised Learning)

  • 군집분석(Clustering Analysis): 분류모델이자 비지도학습 (나이, 성별, 직업의 유사도에 따라 3개의 그룹으로 나눔)
  • 이상치 탐지(anomaly detection): 회기모델이자 비지도학습 (새로운 데이터가 기존의 데이터에서 얼마나 벗어나 있는지 측정)

구분 지도학습 비지도 학습

정답 데이터 있음 없음
목적 y 예측 패턴 발견
대표적인 모델 회귀, 분류, CNN, 객체탐지, Sequence 모델 군집, 차원축소, 이상치탐지
성능 평가 정확도, 혼동행렬 실루엣 계수, 엔트로피

패러미터로 모델을 표현할 수 있는가?

yes → Parametric Method

X(독립변수)와 y(종속변수)의 관계를 고정된 수의 패러미터로 표현할 수 있음.

no → Non-parametric Method

패러미터의 수가 고정되지 않고 데이터에 따라 달라짐.

함수적 형태를 가정하지 않는다.

ex) KNN Regression: 특정 X의 가장 가까운 K개 데이터의 y값을 평균내어 예측

end.

728x90