[학부 일기] 그 외 활동/데이터 분석

[반도체데이터분석] 가설검정

러키세미 2023. 8. 21. 16:19
반응형

안녕하세요!

이번 글은 '가설 검정'에 대한 내용입니다. 

데이터 분석에서 중요하게 쓰이기도 하고 처음 보는 내용이 많아 조금 어려웠네요ㅎㅎ..

 

여러번 복습하고 이해하면서 완벽하게 활용하도록 해보겠습니닷 💪


  • 분석 도구

데이터를 분석하는 방법에는 여러가지가 있는데, 

서로다른 두 인자 X, Y의 data 유형에 따라 분석도구가 달라집니다. 

두 인자간의 관계를 분석하기 위한 그래프, 통계 분석 방법론은 아래와 같습니다.

또한 집단간을 비교할 때도 다음과 같은 방법들을 사용하여 진행하게 됩니다. 

 

 

  • 그래프 분석

그래프 분석에 대해 조금 자세히 적어보자면 아래와 같습니다.

 

- 그래프를 활용하면 X에 의한 Y의 관계를 개략적으로 파악, 공정에 대한 평균치 이동/산포 등을 가시적으로 확인 가능

- 그림을 보는 것이기 때문에 명확한 수치를 통해 나타내는 것은 불가하지만, 비교/추이/점유상태를 한눈에 파악하는데 주로 사용

- 그래프를 봐서 상관관계가 명확히 드러나는 경우는 통계적 분석이 필요하지 않음

   # 명확한 양의 상관관계 : 공정 node와 반도체의 면적

   # 명확한 음의 상관관계 : 온도와 반도체 전력 효율

   # 상관관계 없음 : 반도체 가격과 내 나이

- 그래프를 통해 상관관계를 판단하기 애매한 경우는 유의미한 인자인지 확인 필요

   # 공정 node와 반도체 가격 (추가요인 있을 수 있음)

   # 반도체 가격과 삼성의 시가총액 

- 사용하는 그래프 종류 : 히스토그램(분포/정규성 확인), 산점도(상관관계 확인), Box Plot(중심위치 분포, 이상점 파악)

 

 

<가설 검정>

  • 가설 검정

가설은 모집단 특성에 대한 추측/주장을 말합니다.

그리고 가설검정은 가설의 타당성을 통계적으로 검증하는 과정입니다.

표본을 추출하여 특성치를 파악하고, 가설의 통계적인 타당성을 검증하면서 가설검정을 진행하게 됩니다. 

 

  • 가설 설정

가설의 종류에는 2가지가 있습니다. 

 

귀무가설 H0

 귀무가설은 일반적으로 알려져 있는 사실, 정형화된 사실을 말합니다. 

"모수가 특정한 값", "두 모수의 값이 같다'와 같이 간단하고 구체적인 케이스가 주로 귀무가설로 설정됩니다.

대립가설 H1

 대립가설은 주장하고자 하는, 확인하고자 하는 것으로 설정합니다. 

"모수가 특정한 값이 아님", "두 모수의 값이 다르다"와 같이 포괄적 개념의 여집합이 대립가설로 설정됩니다. 

 

위 두 가설 중 귀무가설을 채택/기각하고 대립가설을 기각/채택하는 과정을 가설 검정이라 합니다. 

예로, 반도체 공정 node를 변경하며 고온 저항성이 높아졌다고 생각한다면, 

H0 : 온도 평균 저항치 = 65℃

H1 : 온도 평균 저항치 > 65℃ 라고 가설을 설정할 수 있습니다.

 

  • 검정통계량

검정통계량은 가설검정에서 관찰된 표본으로부터 구하는 통계량을 말합니다. 표본통계량이라고 할 수 있습니다.

검정통계량의 값이 나타날 가능성이 크면 귀무가설을 채택하고, 나타날 가능성이 적으면 귀무가설을 기각하게 됩니다. 

 

검정통계량은 아래와 같은 수식으로 정의할 수 있습니다. 

그리고 이 값을 표준정규분포, t분포, 카이제곱분포, F분포로 적용시킬 수 있습니다. 

 

 

  • 가설검정 그래프 용어

가설검정 그래프에서 확률은 다음 4가지 영역으로 구분할 수 있습니다. 

- α (유의수준) : 귀무가설이 옳을 때, 옳다고 판단할 확률

- 1-α (신뢰도) : 귀무가설이 옳을 때, 틀리다고 판단할 확률

- β : 대립가설이 옳을 때, 틀리다고 판단할 확률 (=귀무가설이 틀릴때, 맞다고 판단할 확률)

- 1-β (검정력) : 대립가설이 옳을 때, 맞다고 판단할 확률(=귀무가설이 틀릴 때, 틀리다고 판단할 확률)

 

  • 검정 종류

검정에는 단측검정과 양측검정이 존재합니다. 

대립가설의 범위에 따라 기각 영역이 존재하는 범위가 달라지기 때문에 유의해서 확인해야 합니다.

 

 

  • 가설검정 단계

가설검정 단계는 다음 5단계를 따릅니다. 

 

1단계 ) 검정하고자 하는 목적에 따라 귀무가설과 대립가설을 설정함 (가설설정)

2단계 ) 검정통계량을 구하고 그 통계량의 분포를 구함

3단계 ) 유의수준을 결정하고 검정통계량 분포에서 가설 형태에 따라 유의수준에 해당하는 기각역을 설정함

4단계 ) 귀무가설이 옳다는 전제하에 표본관찰에 의한 검정통계량의 값을 구함

5단계 ) 4단계에서 구한 검정통계량 값이 기각역에 속하는가를 판단하여

       기각역에 속하면 귀무가설을 기각하고, 기각역에 속하지 않으면 귀무가설을 채택함

 

  • 가설검정의 오류

가설검정에서 오류는 2가지로 나눌 수 있습니다. 

 

1) α 오류 (Type 1 Error)

 실제로 귀무가설이 맞을 때 귀무가설을 기각할 오류, 대립가설이 틀릴 때 대립가설을 채택할 오류를 말합니다.

 ex) A, B공장 반도체 품질 동일 -> 실제로 품질 동일하지만 다르다고 체크 -> 생산자 부담

2) β 오류 (Type 2 Error)

 실제로 귀무가설이 틀릴 때 귀무가설을 채택할 오류, 대립가설이 맞을 때 대립가설을 기각할 오류를 말합니다. 

 ex) A, B공장 반도체 품질 동일 -> 실제도 품질 다른데 동일하다고 체크 -> 소비자 부담

 

이에 따른 위험성도 존재합니다. 

1) α-risk : 1종 오류를 범할 가능성으로 5%선에서 정해짐 (유의수준, p-value)

2) β-risk : 2종 오류를 범할 가능성으로 10%선에서 정해짐

 

실생활 사례료는 바이러스 검사가 가장 유사합니다.

H0는 음성, H1은 양성일 때, α-risk는 음성을 양성이라 판단할 가능성, β-risk는 양성을 음성이라 판단할 가능성이 됩니다. 

 

 

  • P-value

귀무가설 기각 여부 판단 측도를 p-value라고 합니다. 

귀무가설을 가정한 분포에서 검정값의 신뢰 수준 밖 영역이 되는데, α수준보다 p-value가 작으면 H0를 기각하게 됩니다. 

p-value가 작을수록 귀무가설 분포의 중심에서 멀어지기에, 경계치 α를 벗어나면 대립가설에 속한다고 가정하게 됩니다. 

즉, p-value<5% 이면 H0 기각, p-value>5%이면 H0 채택을 선택하게 됩니다.

 

 

 

< 가설검정 방법 >

  • 모평균을 모를 때

모평균을 모를 때, 표본조사를 통해 모평균 가설을 검정하게 됩니다. 

  - 모분산을 아는 경우 : 정규분포 사용

  - 모분산을 모르는 경우 : T분포 사용

 

Ex1) 모분산을 아는 경우

Ex2) 모분산을 모르는 경우

 

  • 모분산을 모를 때

모분산을 모를 때, 표본조사를 통해 모분산 가설을 검정하게 됩니다. 

모분산추론에 사용하기 때문에 카이제곱분포를 이용합니다.

 

Ex1)

 

 

  • 2개 모평균 동일한지 검정

2개의 모집단 평균이 동일한지 검정하는 방법은,

모평균 가설검정과 동일하게 모분산을 아는 경우와 모르는 경우로 나뉘어 사용하게 됩니다. 

 

Ex1) 모분산을 모르는 경우

 

 

  • 2개 모분산 동일한지 검정

2개의 모집단 분산이 동일한지 검정하는 방법은, F분포를 사용합니다.

두 모집단의 분산이 같다는 가정 하에 가설을 검정하면 됩니다. 

 

Ex1)

 

  • 3개 이상의 집단 유의차 분석

3개 이상의 집단에 대한 유의차 분석은 ANOVA (Analusis of Variance)를 사용합니다. 

모든 집단이 동일하다는 것을 귀무가설로 정의하고 분산분석을 진행합니다. 

기존 가설검정 방법으로 진행하면 case가 많아지고 오류 발생 확률이 증가하기 때문에 ANOVA를 유용하게 사용할 수 있습니다.

 


실습도 진행해보았습니다 :)

 

1) 모평균 가설검정

 

모분산 모르는 경우는 t분포 사용

표본의 t값은 수식을 사용해서 구하고

유의수준은 T.INV함수 사용

 

2) 평균차이 가설검정

 

모분산 모르는 경우. 

두 표본 t값은 식사용 & 유의수준은 양측검정 고려해서 T.INV 사용 

(표본갯수가 30개 넘어가면 NORM.INV함수로 사용해도 된다)

 

데이터분석>t검정-쌍체비교 사용하면 더 빠르게 구할 수 있음

 

3) 등분산 가설검정

 

F분포 사용.

두 표본분산 구해서 F값 구함

유의수준은 양측검정 고려해서 F.INV로 구하기

 

데이터분석>F검정:분산에 대한 두 집단으로 사용하면 더 빠르게 구할 수 있음

다만, 여기서는 단측검정만 사용할 수 있어서 유의수준 잘 입력해줘야한다!

 


오늘 글은 여기까지입니다!

이전 게시글까지는 어디서 한번 쯤 본 내용들이었는데, 이번부터는 정말 새로운 내용을 배우는 것 같아 더 재밌었어요

마지막까지 열심히 작성해보겠습니다!

감사합니당 :)

반응형