[학부 일기] 그 외 활동/데이터 분석

[반도체데이터분석] Data 분석의 기초

러키세미 2023. 8. 16. 17:05
반응형

안녕하세요!

오늘 반도체데이터분석 내용은 'data 분석의 기초'에 대한 내용입니다. 

 

분석에서 사용되는 기초 용어와 개념에 대해 작성해 보겠습니다.

이 부분 내용은 중,고등학교 때 들어본 내용과 새로운 내용이 함께 들어있으니 잘 떠올리며 들으면 좋을 것 같아요!

 


  • 모집단과 표본

먼저 모집단(population)은 전체집단을 말하고, 표본(sample)은 모집단에서 추출(sampling)한 집단을 말합니다.

그래서 모집단에서의 평균과 분산을 모평균, 모분산이라 하고, 표본에서의 평균과 분산을 표본평균, 표본분산이라 합니다.

성인남성이 1000만명일 때 평균 키를 구하려면

1000만명 모두를 계산하면 정확하지만 시간 소모와 많은 인력, 세대변경과 같은 문제가 생길 것 입니다. 

하지만 1000명의 표본을 추출하여 계산하면 비교적 빠르게 평균과 분산을 구할 수 있게 됩니다. 

 

모집단 전체를 조사하는 활동을 전수조사라고 하고,

반면 표본을 뽑아 표본을 조사한 후 이를 통해 모집단을 추측하는 것을 표본조사라 합니다.

wafer를 예로 든다면 모든 wafer를 대상으로 한 전수조사는 비용이 많이 들고, 검사로 인한 제품 품질 하락(수명 감소)으로 인해 양품 생산면에서 비효율적입니다. 

그래서 wafer의 일부만 조사해 모집단을 추측하는 표본조사가 더욱 좋은 방법이라 생각할 수 있습니다.

 

 

모집단과 표본집단의 평균, 분산, 표준편차는 위와 같이 표현할 수 있습니다. 

이때, 주의해야할 점은 

표본집단의 식들은 전체 모집단에서 만들어진 표본들에서 나온 값들의 평균, 분산, 표준편차임을 유의해야 합니다.

 

100명의 모집단에서 5명의 표본을 만드는 것은 100C5(조합)의 case를 추출할 수 있습니다. 

이렇게 구해진 각 case에서 평균, 분산, 표준편차가 나올 것이고 모든 case를 고려해 이 평균값들의 평균, 분산값들의 분산, 표준편차들의 표준편차값을 말하는 것 입니다.

 

식을 보면, 표본집단에서의 분산과 표준편차는 모집단의 값에서 표본 갯수 n으로 나누어진 형태를 띕니다. 

그렇기에 표본의 갯수 n이 증가할수록 분산값과 표준편차가 증가하는 것은, 평균에서 먼 값들이 희석되며 모집단의 평균과 가까워 짐을 확인할 수 있습니다.

 

 

그리고, 이러한 data를 수집할 때 유의할 사항이 5가지 있습니다.

  1. 전체를 대표할 수 있는가?  (반도체 제품 공장 A B C 골고루 검사하는 것이 전체를 대표. 다양한 요인을 고려해 수집)
  2. 무작위로 추출되었는가?  (골고루. 경향성을 최대한 띄지 않게)
  3. 표본의 크기는 충분한가?  (실생활에선 30개 이상. A B C에서 동일하고 적당한 갯수를 수집)
  4. Data 수집 단계에서 일관성을 유지하였는가?  (상황 기준이 동일해야 함. A는 클린 상황이지만 B, C는 다르면 불공평)
  5. 의도하는 목적에 맞게 수집하는가?  (요인분석의 정확, 효율 위해. quality 평가 요인에 설비/소자 상황이 아닌 작업자의 키, 몸무게는 불필요한 실험이 진행되는 것)

당연한 말이지만, 전문교육을 이수한 자를 통해 수집하는 것이 정확한 data를 수집할 수 있게 됩니다.

 

 

  • 중심위치

중심에 대한 정의는 아래와 같이 다양하게 정의할 수 있습니다.

 

그리고 데이터 분포에 따라 중심위치의 관계는 달라지게 됩니다.

각 규형에 따라 적절한 중심 위치를 사용해야 합니다. 

mean과 median, mode값의 값은 정규 분포에서 거의 근사하지만 치우친 그래프에서는 위치가 다르게 있습니다.

 

 

  • 산포

먼저, 산포는 data가 중심으로부터 얼마나 퍼져있는가를 나타내는 값입니다.

파란색, 빨간색, 노란색은 점점 산포가 증가하며 data가 점점 퍼지는 형태를 보입니다. 

시그마 제곱 값인 분산값이 증가할수록 산포도 증가합니다. 

파란색 데이터는 산포가 매우 낮아 데이터 벗어남이 적은데, 이는 가장 우수한 값으로 quality가 일정하다고 판단합니다.

빨간색 데이터는 일반적인 표준 정규분포이고,

노란색 데이터는 너무 퍼져있어 공정에서 품질이 떨어지게 됩니다. 

그리고 초록색 데이터는 평균이 치우친 상황으로 산포가 작기 때문에 개선의 여지를 볼 수 있습니다. 

 

 

정규분포 형태에서 불량 확률을 알아봅시다. 

시그마에 따른 범위를 통해 벗어날 확률을 확인할 수 있습니다. 

6시그마는 1/5억의 확률로 매우적은 불량률을 보이고 있습니다. 

 

산포의 종류는 아래와 같습니다. 그리고 아래의 산포들은 모집단에서 적용되는 값들 입니다.

 

그리고 산포의 계산식을 추가로 알아봅시다. 아래는 표본에서 적용되는 계산식입니다.

 

총 변동 (Total Sum of Square)은 S로 나타내고, 편차 제곱의 합으로 표현됩니다. 

(+ 편차 제곱은 분산)

 

이때 주어진 조건에서 자유롭게 변화할 수 있는 데이터 수를 자유도라 합니다. 

S라는 집단에서 자유롭게 변할 수 있는 자유도는, 표본 크기가 n개이면 n-1로 나타내집니다. 

평균과 편차가 정해지고 다른 값들이 존재한다면 마지막 n번째 값은 자연스럽게 정해지기 때문에, n-1개라고 합니다. 

 

그렇기에, 총 변동을 자유도로 나는 값을 불편분산(Unbiased Variance)라 합니다. 

불편분산에서 n-1로 나눈 이유는, 표본 분산을 통해 모분산의 추정치에 근접하기 위해서입니다. 

표본 내의 분산은 모집단에 비해 퍼져있고, 표본 크기가 커질수록 분산이 퍼지는 것을 막을 수 있습니다. 

그렇기에 자유도라는 개념을 넣어 모분산에 근접하게 계산하기 위해 적용하는 것 입니다. 

 

추가적으로, 앞에서 구한 표본분산과 표본표준편차는 표본간의 분산과 표준편차를 나타내지만, 

여기서 구한 불편분산은 표본 내의 분산을 말합니다. 


 

이렇게 이론내용 정리를 진행하고, 엑셀 실습을 진행해봅시다!

30개의 데이터를 이용하여 중심과 산포를 구하는 방법(함수), 그리고 보집단과 표본의 분산 표준편차 비교를 했고

개발자 옵션을 켜 기술통계법을 통해 데이터분석까지 진행했습니다. 

 

mean : Average(범위)

trimmed mean : trimmean(범위, 퍼센트)

mode : mode(범위)

median : median(범위)

 

variance : 모집단-var.p & 표본-var.s

STD : 모집단-stdev.p & 표본-stdev.s

range : 사분위수함수 quartile로 최대(4)-최소(0)

IRQ : 사분위수함수 quartilefh 0.75(3)-0.25(1)

 

개발자옵션 :

파일>옵션>리본사용자 지정>개발도구 클릭 추가>엑셀 추가기능>데이터분석 체크

   =>  데이터>데이터분석 새로 생김

   => 다양한 데이터 분석기법 사용 가능

기술통계법(주어진 데이터 성향, 수치 확인)을 사용해 평균, 중앙값,... 등을 확인할 수 있다.

 

첨도: 정규분포 기준 첨도가 0보다 크면 정규분포보다 값들이 중앙에 더 몰려있음.

왜도: 양수이면 그래프가 왼쪽으로 치우치고 오른쪽으로 꼬리가 생김. 음수는 반대형태

 


오늘 게시글은 여기까지입니다!

엑셀 단축키도 익숙해지고, 데이터 분석도 함께 진행하니 흥미롭네요 😎

다음글로 돌아오겠습니다 :)

 

감사합니다!

 

반응형