정보기반 학습모델_회귀분석과 분류 모델 정리

Posted Feb 6, 2025

By 박예성

2 min read

정보기반 학습모델_회귀분석과 분류 모델 정리

1. 회귀분석 (Regression)

특징: 연속형 독립변수(X) → 연속형 종속변수(Y) 예측
목적: 변수 간 관계 모델링 및 수치 예측
예시: 주택 가격 예측, 판매량 예측

2. 로지스틱 회귀 (Logistic Regression)

기본 개념

분류 모델: 범주형 종속변수(Y) 예측 (0/1, 참/거짓)
Sigmoid 함수: 선형 결과를 [0,1] 범위로 변환
σ(z) = 1 / (1 + e^(-z))
결과 해석: 확률 값으로 분류 임계값(일반적 0.5) 기준 판단

전처리 기법

결측치 처리: 삭제/대체
이상치 제거: IQR, Z-score
범주화: 연속형 → 구간 분할
정규화: Min-Max, Z-score

3. 평가 지표 (Confusion Matrix)

실제값＼예측값	Positive	Negative
Positive	TP	FN
Negative	FP	TN

정확도(Accuracy): (TP+TN) / Total
정밀도(Precision): TP / (TP+FP)
민감도(Recall): TP / (TP+FN)
특이도(Specificity): TN / (TN+FP)

4. 의사결정 나무 (Decision Tree)

핵심 개념

분류 기준: 불순도(Impurity) 최소화
분할 방법: 정보 이득(IG) 최대화 IG = 부모 불순도 - (좌측 자식 불순도 + 우측 자식 불순도)

불순도 측정 지수

엔트로피(Entropy):
Entropy = -Σ(p_i * log2(p_i))
지니 지수(Gini Index):
Gini = 1 - Σ(p_i^2)
카이제곱 통계량

특징

장점:
- 선형성/정규성 가정 불필요
- 범주형 & 연속형 데이터 모두 처리 가능
- 빠른 연산 가능
단점:
- 과적합(Overfitting) 경향
- 통계적 유의성 판단 기준 없음

5. 앙상블 기법 발전 과정

랜덤 포레스트: 다수 의사결정 나무 + 배깅
AdaBoost: 오분류 샘플 가중치 증가
Gradient Boost: 잔차 학습을 순차적 진행
XGBoost: 병렬 처리 최적화 + 정규화 항 추가

R R Studion 회귀분석석

This post is licensed under CC BY 4.0 by the author.