Study/데이터 사이언스 (이지환 교수님) 2023-18 9. Decision Tree 트리 구조 (Tree structure) : 노드(node)와 노드간 연결을 표현하는 에지(edge)로 구성된 노드 → 분기 → 계층적 구조가 형성. 하나 이상의 자식 노드를 가질 수 있음 상위: 루트 노드 root node 하위: 잎 노드 leaf node Decision Tree : 데이터의 특징(feature)과 클래스(label) 사이의 관계를 트리 구조로 나타내는 지도학습. 각 노드에서 “하나의” 특징에 대한 테스트를 수행, 분기 생성 분기는 나눌 수 없을 때까지 수행, 마지막 리프 노드 생성 리프 노드: 최종적 클래스(label) 값을 예측하는 역할. 💻 과일크기 데이터 셋 Node의 역할: 특성값에 따라 공간을 둘로 나누는 역할 차원에 따라 공간을 쪼개어지는 것 → Decision Tress.. 2023. 9. 5. 8. KNN K-mearest neighbor: K개의 가장 가까운 이웃 Complex patterns of real-world dataset 실제 세계의 데이터는 선형적인 패턴을 가지고 있지 않은 경우가 많음 KNN 회귀, 분류 / 지도학습 / Non-parametric Method 주어진 데이터의 값을 예측하기 위해 K개의 가장 가까운 이웃의 정답을 참조. 가지고 있는 데이터와 유사도를 비교 (n번 비교) 예측하고자 하는 데이터 x와 주어진 데이터 사이의 거리를 구한다. x와 가장 거리가 가까운 K개의 데이터를 찾는다. x와 근접한 K개의 데이터의 Label들 중 가장 많은 Label로 ${\hat y}$ 예측 or x와 근접한 K개의 데이터의 Label의 평균값으로 ${\hat y}$ 예측 데이터 객체간의 거리.. 2023. 9. 5. 6. 교차검증 (Cross Validation) → 5장에서 과적합과 과소적합을 피하기 위해 data를 쪼겠음 그럼 data를 쪼개는 기준은? 방법은? 모델선택 방법론: Train-test split : 가장 기초적인 방법 가진 데이터의 일부를 blind 처리하기 데이터분할 (Train, Test) Train으로 모델 n개 학습 Test로 모델 n개의 정확도 측정 n개의 모델 중 가장 Testing 정확도가 높은 것을 최적의 모델로 선정 → 이 방법의 문제점 데이터가 나뉘어지는 방식에 따라 모델 검증 결과에 큰 편차가 존재할 수 있음. train과 test data가 우연히 치우쳐지면 모델의 일반화 능력 파악 불가능. 해결방법: 교차검증 (Cross-validation) : 한 번의 시도로 데이터를 나누다 보면 우연에 의해 치우칠 수 있으니, 데이터를.. 2023. 9. 5. 5. 일반회귀와 과적합 (Generalization/Overfitting) 모델(Model) : 독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현한 것. 서로 다른 모델 : 독립변수와 종속변수에 대하여 다른 가정을 하면 서로 다른 모델이라고 할 수 있다. 변수 사이 가정, 어떤 변수는 빼고, 포함할지.. 모형 평가의 필요성 : 여러 모형에 동시에 적용할 수 있는 평가 지표가 필요하다. 절차 데이터 (X, y)를 사용하여 모형을 학습 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산 정답 y와 ${\hat y}$ 차이를 측정 실제 데이터 vs 관측된 데이터 실제 데이터 (모름) 관측된 데이터: 확보한 데이터 (샘플링) Goal → 실제 데이터의 관계를 잘 표현하는 모형을 찾아야 한다. 모형의 유연성 (= 모델의 표현력) : 모델에서 가정하는 .. 2023. 9. 5. 4. 지도학습 모형의 평가 (Supervised Model Evaluation) 모델의 예측 정확도 평가 절차 데이터 (X, y)를 사용하여 모형을 학습 훈련에 사용된 데이터 x들을 다시 모형에 입력하여 예측값 ${\hat y}$계산 정답 y와 ${\hat y}$ 차이를 측정 1. 회귀모형의 정확도 평가 (강의자료 예시 직접 손계산 해볼 것) RMSE (Rooted Mean Squared Error) : 평균적으로 얼마나 떨어져 있는가 오차제곱의 평균의 루트 ${RMSE = \sqrt{\sum_{i=1}^n\frac{(\hat y_i -y_i)^2}{n}}}$ 모든 다양한 회귀모형에 공통으로 사용 가능 Scale dependent 단위에 영향을 받는다. 절대적인 지표 R2 Score : 회귀모형을 적용 후 실제 변수와 예측된 변수사이의 제곱합 ${R^2=\frac{TSS-RSS}{T.. 2023. 9. 5. 3. 로지스틱 회귀모형 (Logistic Regression) 로지스틱 회귀모형의 분류 : 분류, 지도학습, Parametric Method 분류문제에 선형회귀를 적용하면? 합격할 확률을 0, 1 로 예측 → 예측된 확률을 이용하여 분류 의사결정 가능 → 생기는 문제점: 0-1 사이의 값을 벗어나는 경우 존재 로지스틱 함수 $$ f(x)=\frac{1}{1+e^{-1}} $$ 성질 음의 무한대 : 0 앙의 무한대 : 1 로지스틱스 회귀: 로지스틱 함수(시그모이드 함수?) + 선형회귀 = 특정 레이블로 분류될 확률을 예측하는 모형 선형회귀 모형 로지스틱 회귀 모형 파라미터를 모형에 넣어 구해진 확률을 의사결정 기준과 비교해서 0, 1을 분류한다. 합격확률 예측 레이블 비용(Cost) 합격을 합격이라고 예측한 경우 그대로, 불합격은 1에서 빼줘서 불합격인데 불합격이라고.. 2023. 7. 28. 2. 선형 회귀모형(Linear Regression) 2. 선형 회귀모형(Linear Regression) 완료: Yes 과목: 데이터 사이언스 1. 선형 회귀모형: 회귀/지도학습/Parametric Method 학습의 목적 : X와 y의 관계를 잘 나타내는 패러미터를 찾는 것. 비용(Cost) : 현재 패러미터로 주어진 데이터를 얼마나 잘 표현할 수 있는지 측정하는 함수 $$ cost = f(y, ŷ) = \sum_{i=1}^{n}(y^{(i)}-ŷ^{(i)})^2 $$ y: 데이터의 실제 레이블 값 ŷ: 현재 파라미터를 가지고 예측한 레이블 값 $$ \theta_0 = 3, \theta_1=1 $$ 각각 \theta(변수)에 대입해서 계산 비용이 작을 수록 그 모델을 설명하는 가장 적합한 파라미터 비용함수를 편미분해서 연립하여 파라미터를 구함!!! 2... 2023. 7. 28. 1. 프로세스, 머신러닝 모형의 분류 1. 데이터 과학(data science): 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야 인공지능 → 머신러닝 → 딥러닝 2. 데이터사이언스 주요 프로세스 데이터 수집 특성(features): 데이터의 변수, 열 관측점(Observation): 특성에 따른 서로 다른 객체들 = 행 종속변수(dependent variable): y (= target variable) 독립변수(independent variable): X (= predictor) 모델 설정 y = β_0+β_1x 독립변수와 종속변수의 관계에 대한 가설을 수학적으로 표현. 회귀모형 로지스틱스 회귀모형 K-Nearest Neighbor Support.. 2023. 7. 28. 이전 1 다음 728x90