안녕하세요!
이번 글은 지난 글인 상관분석에 이어서 회귀분석에 대해 알아보려 합니다.
상관분석은 두 변수 사이의 상관관계를 -1~1 사이의 상관계수로 나타내는 분석방법이었습니다.
반면 회귀분석은 둘 사이의 관계를 수식으로 정립해주고, 다양한 분석을 진행하게 됩니다.
이 회귀분석, 지금부터 정리해보겠습니다!
- 회귀분석이란
회귀분석은 두 변수 사이의 함수관계(회귀방정식)을 찾아내고 분석하는 기법을 말합니다.
y=f(x)라는 회귀방정식을 구하는데, x는 독립변수, y는 종속변수로써의 역할을 합니다.
이 방정식을 통해 새로운 x data를 넣었을 때 y data를 추론할 수 있습니다.
일반적으로 선형회귀를 사용하는데, (simple is best!)
회귀분석의 목적인 '추론'을 위해서는 1차식인 선형방정식이 가장 유사한 값을 보이기 때문입니다.
- 회귀분석 오차
회귀분석의 오차는 아래 그림과 같이 3가지로 분류됩니다.
① SSE (Error sum of squares)
- 회귀선과 실제 값 차이의 제곱, 즉 오차의 제곱
- 수식으로 설명이 불가능한 변동
② SSR (Regression sum of squares)
- 평균과 회귀선과의 차이
- 수식으로 설명이 가능한 변동
③ SST (Total sum of squares)
- SST+SSE의 값
- 식에 의한 변동 및 그 외 변동의 합
세 오차값은 다음과 같은 수식으로 유도할 수 있습니다.
- 회귀분석 정확도
회귀분석의 정확도 평가는
전제 변동 대비(SST), 수식으로 설명되는 변동 비율(SSR)을 정확도로 하여 판단하게 됩니다.
이 R² 값은 결정계수라 하고 0~1의 값을 가집니다.
1에 가까울수록 SSE가 작아지게 되면서 선형회귀모형의 설득력이 높다는 것을 의미합니다.
x인자가 1개인 경우는 단순회기, 2개 이상인 경우는 다중회귀라고 합니다.
과적합은 data에 너무 집중하여 높은 결정계수를 가지게 되고, 이후 추론값이 잘못된 상태를 말합니다.
이 과적합은 n차회귀에서 주로 발생하고, 이를 방지하기 위해 오차를 두고 추이와 추론 설명이 좋은 선형회귀를 주로 사용합니다.
- 회귀분석 가정
회귀분석은 다음 네가지의 조건을 만족하는 데이터를 가지고 진행해야 합니다.
1) 변수 독립성 : 각 표본집단 데이터는 무작위로 추출. 서로가 독립적
2) 정규성 : 잔차(편차)는 평균이 0인 정규분포
3) 등분산성 : 잔차의 분산은 예측치와 관계없이 동일한 분산을 가져야 함
4) 독립성 : 독립적인 잔차, 일정한 패턴을 보이면 안됨.
- 회귀방정식
회귀방정식은 종속변수와 독립변수 사이의 관계식을 나타내는 함수식입니다.
독립변수의 개수와 차수에 따라 여러 유형으로 구분할 수 있습니다.
이후에 직접 다룰 선형회기식과 그 유도방법은 아래와 같습니다.
(최소제곱법 -> SSE를 최소로 하는 과정을 거쳐 구할 수 있습니다.)
즉, 수식을 정리하자면
와 같습니다.
- 단순선형회귀 수식&가설검정
1) 선형회귀식 구하기
아래 예시에 대해 선형 회귀식을 구해봅시다.
2) 결정계수 확인
회귀식의 결정계수는 아래와 같이 구할 수 있습니다.
3) 회귀식의 가설검정
가설검정에서 귀무가설은 H0: b1=0(회귀식이 유용하지 않다)로 정의하고, F분포를 통해 검정합니다.
위 예시에 이어 구해보면,
위에서 SSR의 자유도는 1이고, SSE의 자유도는 n-2로 정의됩니다.
이를 통해 위 예시는 유의수준 0.05 미만이므로, 대립가설인 H1 : 회귀식은 유용하다를 채택하게 됩니다.
엑셀로 회귀분석 실습을 진행해보았습니다!
- 결정계수 b0, b1구하기
1) b1
x, y의 covariance 구하고 data 갯수 n 곱해 총 sum 구한 값 & x의 variance * n 으로 총 합 구해서
cov/var = b1
2) b0
y_average - x_average*b1
- 결정계수 구하기
먼저 회귀식에 따른 y_hat값 구하고
SSR : y_hat - y_average 의 값 제곱 -> 모두 summary
SSE : y - y_hat 의 값 제곱 -> 모두 summary
=> 결정계수 : SSR / (SSR+SSE)
F값은 평균제곱 구해서 구하기
SSR의 평균제곱 : SSR/1
SSE의 평균제곱 : SSE/(n-2) => SSR의 평균제곱/SSE의 평균제곱
유의수준은 F.INV(0.95, 1, n-2)로 해서 비교하면 유의판단 가능!
데이터분석 기능 써서도 결정계수, F비, P-값을 구할 수 있다.
오늘 글은 여기까지입니다!
이후에 다룰 글도 열심히 한번 써보겠습니다 😎💪

감사합니다 :)
'[학부 일기] 그 외 활동 > 데이터 분석' 카테고리의 다른 글
[반도체데이터분석] 실험계획법 (0) | 2023.08.28 |
---|---|
[반도체데이터분석] 관리도 (0) | 2023.08.28 |
[반도체데이터분석] 상관분석 (0) | 2023.08.24 |
[반도체데이터분석] 가설검정 (0) | 2023.08.21 |
[반도체데이터분석] 공정능력 (0) | 2023.08.21 |