안녕하세요!
이번 글은 상관분석에 대해 알아보겠습니다!
- 분석 도구
저번 글에서(가설설정), 다음과 같은 데이터 유형에 따른 분석도구에 대한 표를 보았습니다.
위를 통해 상관분석은 인자가 모두 연속형일 때 사용하는 분석임을 확인할 수 있었습니다.
이러한 상관분석은 다음과 같은 직선적 관계가 가시적으로 잘 드러날 때 사용하게 됩니다.
<상관분석>
- 산점도
산점도는 그래프를 통해 가시적으로 관계를 쉽게 파악할 수 있습니다.
지수화를 하지 않고 단순하게 표현하였기 때문에, 객관적이지 않다는 단점이 존재합니다.
위 그래프에서 강한정도와 약한정도를 나누는 것은 기울기의 차이가 아닌,
직선을 기준으로 data의 퍼짐이 적을수록 강한 상관관계, 퍼짐이 클수록 약한 상관관계로 표현합니다.
그리고 ⑥비선형 관계와 같은 경우에는 상관분석이 애매해 비선형 회귀분석으로 주로 다루게 됩니다.
- 상관분석
상관분석은 둘 이상의 변수 간 관련성을 파악하기 위한 분석입니다.
산점도의 점 상태를 보다 평확한 수치로서 표시하여 어느정도의 상관관계에 있는지를 확인할 수 있습니다.
- 상관계수(Correlation Coefficient)
둘 이상 변수들 사이의 상관관계의 방향과 점도를 표시하는 계수를 상관계수라 합니다.
상관계수는 -1~1까지의 값을 가지는데,
절대치가 0.4이상이면 상관관계가 존재한다 하고, 0.7이상이면 강한 상관관계를 가진다고 판단할 수 있습니다.
위 r값은 아래와 같이 유도할 수 있습니다.
- 상관분석의 성질
상관계수의 정의는 다음과 같고,
아래와 같은 성질을 지닙니다.
- 인과관계?
상관관계에서 유의할 점은 상관관계≠인과관계 라는 점입니다.
상관관계는 두 변수 사이의 변동방향, 정도가 동일한지를 의미합니다.
이 상관계수가 높다 해서 반드시 두 변수 사이에 인과관계가 있음을 의미하지는 않다는 것입니다.
예를들면, 모기와 전기료를 들 수 있는데
모기와 전기료 사이에는 인과관계는 없지만 큰 상관관계를 가지고 있습니다.(모기 증가 -> 여름 -> 전기료 인상)
실제로는 제 3의 변수인 온도, 날씨, 계절 등이 존재하고 있다고 할 수 있겠죠.
이번 글은 여기까지입니다!
다음글은 회귀분석을 배워보고, 관련된 실습까지 진행해 보겠습니다.

감사합니다!
'[학부 일기] 그 외 활동 > 데이터 분석' 카테고리의 다른 글
[반도체데이터분석] 관리도 (0) | 2023.08.28 |
---|---|
[반도체데이터분석] 회귀분석 (0) | 2023.08.25 |
[반도체데이터분석] 가설검정 (0) | 2023.08.21 |
[반도체데이터분석] 공정능력 (0) | 2023.08.21 |
[반도체데이터분석] Data 유형 (0) | 2023.08.18 |