안녕하세요!
오늘은 데이터의 유형에 대해 알아보려 합니다!
이번 내용도 저번 내용과 마찬가지로 고등학교때와 대학교때 접해본 내용이 있어서 이해가 쉬울 것 같아요 :)
- Data 유형
먼저, data의 유형을 분리하는 것이 왜 중요한지 알아보겠습니다.
data의 형태에 따라 분석 방법, 계산법과 같은 후속 작업이 달라지기 때문에, 이에 대한 정확한 판단과 고민이 필요합니다.
그리고 data는 크게 이산형과 연속형으로 나눠집니다.
이산형(descrete) data는 자연수, 정수로 주로 표현되고 주로 ~개, ~건과 같은 단위로 적용됩니다.
wafer 불량 개수, PKG test fail 개수, 고객 불만족 건수 등이 이 예시가 됩니다.
이산형 데이터는 확률질량함수 p(x)로 표현되고, 확률의 합은 시그마로 합칠 수 있습니다.
연속형(continuous) data는 연속적인 값들로 표현됩니다.
제품의 power 소모, 제품의 무게, 불량 분석 시간과 같이 값이 나뉜 것이 아닌 연속적으로 이어진 형태를 가집니다.
연속형 데이터는 확률밀도함수 f(x)로 표현되고, 확률의 합은 적분을 이용합니다.
이산형과 연속형 data의 확률 분포 종류를 표로 정리하면 아래와 같습니다.
연속형 데이터 중 아래 3개(파란색 바탕)의 분포는 표본을 위한 분포입니다.
각 분포를 하나씩 살펴봅시다!
- 이산형 data
1. 베르누이분포
베르누이분포는 확률 실험의 결과가1번 실행했을 때 pass/fail 형태의 2가지로만 나뉩니다.
문제를 찍었을 때 맞출 확률, 동전을 던졌을 때 앞면이 나올 확률 등이 이 분포에 속하게 됩니다.
베르누의 분포에서 적용되는 확률질량함수와 평균(기대값), 분산은 아래와 같습니다.
2. 이항분포
이항분포는 베르누이 시행을 n번 반복했을 때, 성공 횟수에 대한 확률입니다.
예를 들면, 불량률이 p인 제품의 표본을 n개 추출했을 때 불량품의 갯수를 이항분포의 확률로 나타낼 수 있습니다.
이항분포에서의 확률질량함수와 평균, 분산은 아래와 같습니다.
그래프는 Bin(n,p)로 나타낼 수 있습니다.
여기서 두 그래프를 비교하면, n의 갯수는 10으로 같지만 확률 p가 증가하면서 오른쪽으로 이동함을 알 수 있습니다.
이때 n의 갯수가 30개 이상으로 증가하게 되면 정규분포와 비슷한 형태를 띄게 됩니다.
이를 >이항분포의 정규근사<라고 하며,
일반적으로 이항분포의 n이 충분히 크게 되면 정규분포의 형태에 근사하게 됩니다.
3. 기하분포
기하분포는 베르누이 시행을 수행할 때 처음 성공할 때까지의, x번째에 처음 성공활 확률의 분포입니다.
취업 성공률이 20%일 때 몇 번의 면접 후 취업할 수 있는지에 대한 예시를 이에 들 수 있습니다.
기하분포에서의 확률질량함수는 다음과 같습니다.
그래프는 Geo(p)로 나타낼 수 있습니다.
p의 값이 증가할수록 x가 작을때 확률이 커집니다.
만약, p=0.8에서 2번만에 붙을 확률은 1일때의 확률과 2일때의 확률을 더해 구해줍니다.
4. 포아송 분포
포아송 분포는 일정 단위(시간, 면적, 구간) 당 희귀하게 일어나는 사건의 확률분포를 말합니다.
'단위'에 따라 구하기 때문에 앞의 n, p와 같은 값이 존재하지 않고,
일정 단위 당 특정 사건의 평균 발생 횟수를 λ로 정의하여 발생횟수를 계산하게 됩니다.
일정 단위에서 희귀하게 발생하는 사건이기 때문에
n이 ∞로, p가 매우 작게 설정되는 형태로 생각할 수 있습니다.
포아송분포의 확률질량함수와 평균, 분산은 아래와 같습니다.
그래프는 Poi(λ)로 표현되고, λ가 커질수록 정규분포에 가까워 집니다.
그리고 포아송분포의 확률질량함수는 아래와 같이 유도할 수 있습니다.
포아송 분포가 성립하기 위해서는 아래의 조건이 성립해야 합니다.
- 단위 시간당 일어나는 사건의 발생은 서로 독립 (이항분포와 유사)
- 작은 시간 내에서 둘 이상의 사건이 발생할 확률은 0에 수렴 (-> '희귀'한 확률으로 만들어진 분포)
- 단위 시간 별 사건 발생 확률은 동일
- 단위 시간당 사건 발생 확률은 단위시간 길이에 비례
포아송 분포의 예시는 교과서의 오타 수, 자동 생산 공정에서 특정 시간동안의 불량 횟수 등으로 들 수 있습니다.
- 연속형 data
1. 균등분포
균등분포는 특정 구간 [a, b]에서 어떤 값이 일어날 확률이 모두 동일한 분포를 말합니다.
일정한 속도를 가진 시계 분침이 특정 구간에 있을 확률을 예로 들 수 있습니다.
균등분포의 확률밀도함수와 평균, 표준편차는 다음과 같습니다.
균등분포 밀도함수는 U(a,b)로 표현합니다.
이때 확률밀도함수 그래프에서 면적을 계산하면 1이 나옵니다.
2. 지수분포
지수분포는 대기시간 등을 계산할 때 사용되는 확률분포 입니다.
인터넷에서 다음 패킷이 도착할 때까지의 시간, 버스 기다리는 시간, 특정 제품의 수명 등에 사용됩니다.
λ는 단위시간 당 발생율으로, 기다려야 할 시간과 이전에 기다린 시간이 독립임을 이용해 계산합니다.
지수분포의 확률밀도함수와 평균, 표준편차는 다음과 같습니다.
λ값이 증가할수록 기울기가 증가하는데,
발생율이 커짐으로써 앞 시간에서 발생할 확률이 커지기 때문입니다.
3. 정규분포
정규분포는 특정 확률을 가진 변수나 오차등의 분포를 말합니다.
실생활에서 접하는 변수들은 대부분 정규분포를 따르죠. 그래서 매우 중요한 분포입니다.
(앞으로도 많이 쓰게 될거 같아요)
키, 몸무게와 같은 수치와 같이 실생활 변수들이 예시가 되고,
DRAM의 Latency (data를 불러올 때 걸리는 시간)의 spec이 10ns±2ns 일 때, N(10,1^2)의 분포를 따르게 됩니다.
정규분포의 확률밀도함수와 평균, 분산은 다음과 같습니다.
표준편차가 커질수록 아래로 넓게 퍼지는 형태가 되고, 평균이 변하면 그에 따른 평행이동을 하게 됩니다.
정규분포는 Z로 변환하여 평균이 0, 분산이 1인 표준정규분포로 만들 수 있습니다.
정규분포 형태를 표준정규분포 형태로 변환후, 특정 범위 내의 확률을 표준정규분포표로 구할 수 있게 됩니다.
~~ 위까지는 모집단을 이용한 분포였다면, 아래부터는 표본을 가지고 모집단을 추론하는 분포에 대해 알아봅시다 ~~
4. t-분포
t 분포는 표본평균을 표준화시키는 과정에서 모표준편차(σ)를 보를 경우, 추정량 s를 통해 모평균(λ)을 추론하는데 이용하는 분포입니다.
t분포는 0을 중심으로 좌우대칭이고, 표준정규분포와 흡사한 모양을 가집니다.
정규분포에 비해 넓게 퍼져있고(표본에 대한 분포이기 때문), n=∞일 때 표준정규분포와 일치하게 됩니다.
t분포는 T로 표준화 하여 아래와 같은 확률밀도함수, 평균, 분산을 구할 수 있습니다.
이때 v는 자유도로 n-1, d.f.로도 표현합니다.
v가 증가할수록 분산이 1에 근접하고, 표준정규분포와 가까워집니다.
그래프와 같이 자유도가 증가할수록 v=∞ 일 때인 표준정규분포에 비슷해집니다.
+) 표본분산 Sum of square 유도는 아래와 같습니다.
+) 불편분산을 구할 때, 자유도 n-1로 나눠주는 이유는 아래와 같이 증명할 수 있습니다.
즉, 표본에서 분산은 위와 같이 n-1로 나누는 것이 중요하고,
위 증명에서 "표본분산들의 평균"과 "표본평균의 분산"의 구분이 중요할 것 같습니다!
t 분포에는 표준정규분포표와 같이 t분포표가 존재합니다. 이를 이용해 표본을 통한 모평균 추론에 사용됩니다.
위에서 행은 α 확률이고, 열은 d.f. 자유도를 나타냅니다.
예를들어, 표본데이터 9개를 가지고 5%의 확률을 가진다면 t는 0.860으로 구할 수 있습니다.
5. 카이제곱분포 (χ^2)
카이제곱분포는 정규분포로부터 추출한 표본에서 Sum of Square를 모집단의 분산으로 나눈 통계량을 말합니다.
모분산의 추론에 사용되고, 오차 제곱합에 대한 확률분포를 보입니다.
제곱의 형태로 분포를 결정하기 때문에 좌우대칭이 아니고 0이상의 값을 갖는다는 특징을 가집니다.
카이제곱분포에서 카이제곱과 확률밀도함수, 평균, 분산은 아래와 같습니다.
카이제곱은 n-1인 자유도의 형태를 가지고 있게 되고,
자유도가 증가할수록 정규성을 띄게 됩니다.
카이제곱분포는 t분포표와 마찬가지로 카이제곱분포표가 존재하고, t값 대신 카이제곱 값을 표현할 수 있습니다.
행은 확률, 열은 자유도를 나타내는데, 확률은 큰 값과 작은 값 두 부분으로 구성되어 있습니다.
구하려는 확률이 큰 경우 오른쪽 부분을 통해 구하고, 작은 경우는 왼쪽 부분을 통해 구할 수 있습니다. 나눠진 경우에도 이를 활용하여 구할 수 있습니다.
만약 6개의 표본으로 95%의 확률일 때는 1.15, 5%의 확률일 때는 11.07로 구할 수 있습니다.
6. F분포
F분포는 서로 독립인 두 확률변수 X1, X2에 대한 분산과 자유도에 대한 분포입니다.
서로 다른 분산에 대한 분석이므로, 주로 분산분석(ANOVA)에 이용합니다.
위 F에서 분산이 더 큰 쪽이 분자로 갑니다.
자유도, 분산에 따라 그래프의 형태가 바뀌는데,
1) 1을 기준으로(두 분산 동일) 그래프가 오른쪽으로 치우치면 두 분산의 차이가 심한 것
2) 자유도가 충분히 크면 정규분포 형태를 띔
3) 자유도가 작은 경우, 왼쪽으로 치우친 형태를 띔
와 같은 성질을 볼 수 있습니다.
F분포에도 F분포표가 존재하고, 각 행과 열은 각 변수의 자유도를 의미합니다.
확률별로 다른 표가 존재하고, 분산이 더 큰쪽이 분자로 감을 유의해야 합니다.
위와같은 연속형 data에서도 >중심극한 정리<가 존재합니다.
모집단으로부터 크기가 n인 표본을 추출했을 때,
표본평균의 분포는 n이 충분히 클 경우에 아래와 같은 정규분포를 띄게 됩니다.
실습을 해봅시다!
1. 이산형 data
1) 이항분포
BINOM.DIST.RANGE(n 시도횟수, p 확률, number1, number2)
: n번 시도해서 number1~2사이 p확률 기준으로 하는 이항분포
( 그래프는 각 횟수들의 확률 결과를 엑셀로 만들어서 표로 나타내서 해보자)
2) 포아송분포
POISSON.DIST(X, mean, cumulative - 0/1)
: 특정사건의 평균 발생횟수가 mean일 때 x번 발생할 확률, cumulative에서 0은 그때의 값, 1은 누적 확률값
2. 연속형 data
1) 지수분포
EXPON.DIST(x, lambda, cumulative) : 단위시간당 발생률이 lambda일 때 x번 발생할 확률
람다값을 조절하면서 그래프 경향 살펴보기
2) 정규분포
NORM.DIST(x, 평균, 표준편차, cumulative)
정규분포의 평균, 표준편차를 이동하면서 그래프 확인해보기
3) t-분포
CONFICENCE.T(α, 표준편차, 표본크기) : α = 1-신뢰도
자유도를 조절, 표준정규분포와 비교해보기
4) 카이제곱분포
CHISQ.DIST(x - 분포계산값, 자유도, cumulative)
: x값은 Sum of square / variance로 값을 구해줘야 한다
(Sum of square : 표준편차 제곱/자유도 & variance : 모표준편차제곱)
자유도 바꾸며 그래프 개형 보기
오늘 게시글은 여기까지 입니다!
다음 글부터는 진짜 데이터 분석에 사용하는 내용에 대해 다루기 시작할 것 같아요.

감사합니다 :)
'[학부 일기] 그 외 활동 > 데이터 분석' 카테고리의 다른 글
[반도체데이터분석] 상관분석 (0) | 2023.08.24 |
---|---|
[반도체데이터분석] 가설검정 (0) | 2023.08.21 |
[반도체데이터분석] 공정능력 (0) | 2023.08.21 |
[반도체데이터분석] Data 분석의 기초 (1) | 2023.08.16 |
[반도체데이터분석] 데이터 분석 (2) | 2023.08.16 |