Post

정보기반 학습모델_회귀분석과 분류 모델 정리

정보기반 학습모델_회귀분석과 분류 모델 정리

1. 회귀분석 (Regression)

  • 특징: 연속형 독립변수(X) → 연속형 종속변수(Y) 예측
  • 목적: 변수 간 관계 모델링 및 수치 예측
  • 예시: 주택 가격 예측, 판매량 예측

2. 로지스틱 회귀 (Logistic Regression)

기본 개념

  • 분류 모델: 범주형 종속변수(Y) 예측 (0/1, 참/거짓)
  • Sigmoid 함수: 선형 결과를 [0,1] 범위로 변환
    σ(z) = 1 / (1 + e^(-z))
  • 결과 해석: 확률 값으로 분류 임계값(일반적 0.5) 기준 판단

전처리 기법

  1. 결측치 처리: 삭제/대체
  2. 이상치 제거: IQR, Z-score
  3. 범주화: 연속형 → 구간 분할
  4. 정규화: Min-Max, Z-score

3. 평가 지표 (Confusion Matrix)

실제값\예측값PositiveNegative
PositiveTPFN
NegativeFPTN
  • 정확도(Accuracy): (TP+TN) / Total
  • 정밀도(Precision): TP / (TP+FP)
  • 민감도(Recall): TP / (TP+FN)
  • 특이도(Specificity): TN / (TN+FP)

4. 의사결정 나무 (Decision Tree)

핵심 개념

  • 분류 기준: 불순도(Impurity) 최소화
  • 분할 방법: 정보 이득(IG) 최대화 IG = 부모 불순도 - (좌측 자식 불순도 + 우측 자식 불순도)

불순도 측정 지수

  1. 엔트로피(Entropy):
    Entropy = -Σ(p_i * log2(p_i))
  2. 지니 지수(Gini Index):
    Gini = 1 - Σ(p_i^2)
  3. 카이제곱 통계량

특징

  • 장점:
    • 선형성/정규성 가정 불필요
    • 범주형 & 연속형 데이터 모두 처리 가능
    • 빠른 연산 가능
  • 단점:
    • 과적합(Overfitting) 경향
    • 통계적 유의성 판단 기준 없음

5. 앙상블 기법 발전 과정

  1. 랜덤 포레스트: 다수 의사결정 나무 + 배깅
  2. AdaBoost: 오분류 샘플 가중치 증가
  3. Gradient Boost: 잔차 학습을 순차적 진행
  4. XGBoost: 병렬 처리 최적화 + 정규화 항 추가
This post is licensed under CC BY 4.0 by the author.