정보기반 학습모델_회귀분석과 분류 모델 정리
정보기반 학습모델_회귀분석과 분류 모델 정리
1. 회귀분석 (Regression)
- 특징: 연속형 독립변수(X) → 연속형 종속변수(Y) 예측
- 목적: 변수 간 관계 모델링 및 수치 예측
- 예시: 주택 가격 예측, 판매량 예측
2. 로지스틱 회귀 (Logistic Regression)
기본 개념
- 분류 모델: 범주형 종속변수(Y) 예측 (0/1, 참/거짓)
- Sigmoid 함수: 선형 결과를 [0,1] 범위로 변환
σ(z) = 1 / (1 + e^(-z)) - 결과 해석: 확률 값으로 분류 임계값(일반적 0.5) 기준 판단
전처리 기법
- 결측치 처리: 삭제/대체
- 이상치 제거: IQR, Z-score
- 범주화: 연속형 → 구간 분할
- 정규화: Min-Max, Z-score
3. 평가 지표 (Confusion Matrix)
| 실제값\예측값 | Positive | Negative |
|---|---|---|
| Positive | TP | FN |
| Negative | FP | TN |
- 정확도(Accuracy): (TP+TN) / Total
- 정밀도(Precision): TP / (TP+FP)
- 민감도(Recall): TP / (TP+FN)
- 특이도(Specificity): TN / (TN+FP)
4. 의사결정 나무 (Decision Tree)
핵심 개념
- 분류 기준: 불순도(Impurity) 최소화
- 분할 방법: 정보 이득(IG) 최대화
IG = 부모 불순도 - (좌측 자식 불순도 + 우측 자식 불순도)
불순도 측정 지수
- 엔트로피(Entropy):
Entropy = -Σ(p_i * log2(p_i)) - 지니 지수(Gini Index):
Gini = 1 - Σ(p_i^2) - 카이제곱 통계량
특징
- 장점:
- 선형성/정규성 가정 불필요
- 범주형 & 연속형 데이터 모두 처리 가능
- 빠른 연산 가능
- 단점:
- 과적합(Overfitting) 경향
- 통계적 유의성 판단 기준 없음
5. 앙상블 기법 발전 과정
- 랜덤 포레스트: 다수 의사결정 나무 + 배깅
- AdaBoost: 오분류 샘플 가중치 증가
- Gradient Boost: 잔차 학습을 순차적 진행
- XGBoost: 병렬 처리 최적화 + 정규화 항 추가
This post is licensed under CC BY 4.0 by the author.