[학부 일기] 그 외 활동/데이터 분석

[반도체데이터분석] 상관분석

러키세미 2023. 8. 24. 16:44
반응형

안녕하세요!

이번 글은 상관분석에 대해 알아보겠습니다!

 


  • 분석 도구

저번 글에서(가설설정), 다음과 같은 데이터 유형에 따른 분석도구에 대한 표를 보았습니다.

위를 통해 상관분석은 인자가 모두 연속형일 때 사용하는 분석임을 확인할 수 있었습니다.

이러한 상관분석은 다음과 같은 직선적 관계가 가시적으로 잘 드러날 때 사용하게 됩니다.

 

 

<상관분석>

  • 산점도

 

산점도는 그래프를 통해 가시적으로 관계를 쉽게 파악할 수 있습니다.

지수화를 하지 않고 단순하게 표현하였기 때문에, 객관적이지 않다는 단점이 존재합니다.

 

위 그래프에서 강한정도와 약한정도를 나누는 것은 기울기의 차이가 아닌,

직선을 기준으로 data의 퍼짐이 적을수록 강한 상관관계, 퍼짐이 클수록 약한 상관관계로 표현합니다.

그리고 ⑥비선형 관계와 같은 경우에는 상관분석이 애매해 비선형 회귀분석으로 주로 다루게 됩니다.

 

 

  • 상관분석

상관분석은 둘 이상의 변수 간 관련성을 파악하기 위한 분석입니다. 

산점도의 점 상태를 보다 평확한 수치로서 표시하여 어느정도의 상관관계에 있는지를 확인할 수 있습니다.

 

  • 상관계수(Correlation Coefficient)

둘 이상 변수들 사이의 상관관계의 방향과 점도를 표시하는 계수를 상관계수라 합니다.

상관계수는 -1~1까지의 값을 가지는데,

절대치가 0.4이상이면 상관관계가 존재한다 하고, 0.7이상이면 강한 상관관계를 가진다고 판단할 수 있습니다.

위 r값은 아래와 같이 유도할 수 있습니다.

 

  • 상관분석의 성질

상관계수의 정의는 다음과 같고,

아래와 같은 성질을 지닙니다.

 

  • 인과관계?

상관관계에서 유의할 점은 상관관계≠인과관계 라는 점입니다.

상관관계는 두 변수 사이의 변동방향, 정도가 동일한지를 의미합니다. 

이 상관계수가 높다 해서 반드시 두 변수 사이에 인과관계가 있음을 의미하지는 않다는 것입니다.

 

예를들면, 모기와 전기료를 들 수 있는데

모기와 전기료 사이에는 인과관계는 없지만 큰 상관관계를 가지고 있습니다.(모기 증가 -> 여름 -> 전기료 인상)

실제로는 제 3의 변수인 온도, 날씨, 계절 등이 존재하고 있다고 할 수 있겠죠.

 


이번 글은 여기까지입니다!

다음글은 회귀분석을 배워보고, 관련된 실습까지 진행해 보겠습니다.

감사합니다!

반응형