회귀분석
회귀분석
1. 회귀 분석(Regression Analysis)
▎ 기본 개념
- 목적: 독립 변수(X)와 종속 변수(Y) 간의 관계를 모델링
- 방정식:
\(Y_i = \beta_0 + \beta_1 X_i + \epsilon_i\)
$\beta_0$: 절편, $\beta_1$: 기울기, $\epsilon_i$: 오차항
▎ 가정
- 선형성: X와 Y의 관계가 선형
- 등분산성: 오차항의 분산이 일정
- 정규성: 오차항이 정규분포를 따름
- 독립성: 오차항 간 상관관계 없음
2. 최소제곱법(Ordinary Least Squares, OLS)
▎ 원리
- 목표: 잔차 제곱합(SSE)을 최소화하는 계수($\beta_0$, $\beta_1$) 추정
- 계산식:
\(\min_{\beta_0, \beta_1} \sum_{i=1}^n (y_i - \hat{y}_i)^2\)
$\hat{y}_i = \beta_0 + \beta_1 X_i$: 예측값
▎ 계수 추정
- 기울기 ($\beta_1$):
\(\beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}\) - 절편 ($\beta_0$):
\(\beta_0 = \bar{Y} - \beta_1 \bar{X}\)
3. 제곱합(SSR, SSE, SST)과 결정계수
▎ 제곱합 관계
| 개념 | 수식 | 설명 |
|---|---|---|
| SST (전체 제곱합) | $\sum (y_i - \bar{y})^2$ | 종속 변수의 전체 변동성 실제 관측값과 평균값 간의 차이를 제곱하여 합한 값 |
| SSR (회귀 제곱합) | $\sum (\hat{y}_i - \bar{y})^2$ | 모델이 설명하는 변동성 종속 변수의 예측값과 평균값 간의 차이를 제곱하여 합한 값 |
| SSE (잔차 제곱합) | $\sum (y_i - \hat{y}_i)^2$ | 모델이 설명하지 못하는 변동성 제 관측값과 예측값 간의 차이를 제곱하여 합한 값 |
- 관계식:
\(\text{SST} = \text{SSR} + \text{SSE}\)
▎ 결정계수(R²)
- 정의: 모델이 설명하는 변동성의 비율
- 계산식:
\(R^2 = \frac{\text{SSR}}{\text{SST}} = 1 - \frac{\text{SSE}}{\text{SST}}\) - 특징:
0 ≤ R² ≤ 1(높을수록 모델 성능 좋음)- 과적합 주의: 변수 추가 시 항상 증가함
4. AIC(Akaike Information Criterion)
▎ 개념
- 변수가 커짐에 따라 Bias(편차)가 줄어들고 분산(variance)는 커짐
- 목적: 모델의 적합도와 복잡도를 동시에 고려한 평가
- 공식:
\(AIC = n \ln\left(\frac{\text{SSE}}{n}\right) + 2K\)- $n$: 표본 크기, $K$: 모델의 파라미터 수
- SSE 사용: 잔차 제곱합이 작을수록 좋음
- 페널티 항($2K$): 변수 증가 시 패널티 부과
▎ 해석
- 낮은 AIC → 더 우수한 모델
- 특징:
- 과적합 방지: 불필요한 변수 추가를 억제
- 모델 비교: 다른 모델 간 AIC 차이로 성능 평가
5. Bias-Variance Tradeoff
▎ 모델 복잡도에 따른 변화
| 편향(Bias) | 분산(Variance) | |
|---|---|---|
| 단순 모델 (적은 변수) | 높음 (과소적합) | 낮음 |
| 복잡 모델 (많은 변수) | 낮음 | 높음 (과적합) |
▎ AIC의 역할
- 최적점 탐색: 편향과 분산이 균형을 이루는 지점 선택
- 일반화 성능: 테스트 데이터에서 좋은 예측력을 보장
6. 요약: 회귀 분석 Workflow
- 모델 구축: 최소제곱법으로 계수 추정
- 성능 평가: R²로 설명력 확인
- 모델 선택: AIC로 복잡도와 적합도 균형 검토
- 진단: 잔차 분석을 통해 가정 검증
7. 모델 평가
- F-statistic(F 검정통계량)=MSR(mean squared regeresson)/MSE(mean squared error)
- F 검정통계량은 모델이 통계적으로 유의미한가를 판정 (p-value)
- 계수의 유의미 : 계수의 p-value
- 모델이 유용한가(설명력): R-squared 값
- 모델이 잘 fitting하고 있는가. -잔차 그래프
데이터에 적용된 선형회귀는 적절한가 : 상관계수
키 포인트
- 최소제곱법: 잔차 최소화를 통한 최적 계수 추정
- AIC: “Less is more” – 불필요한 변수 추가를 방지
- R² vs AIC: R²는 설명력, AIC는 일반화 성능에 초점
This post is licensed under CC BY 4.0 by the author.