6 Sigma/일반 이론

[6Sigma] 기초 통계

야곰야곰+책벌레 2021. 6. 14. 07:12
반응형

 1. 통계용어의 이해

  • 모집단과 표본
    모집단은 표본이 추출되는 모체가 되는 집단으로 우리가 알고자 하는 조사 혹은 연구대상의 전체를 말한다. 
    모집단의 크기가 작을 경우에는 모든 경우를 조사하여 정확도를 높이는 것이 바람직하나 크기가 클 경우에는 표본만 추출하여 조사하는 하는 것이 현대 통계학의 주류이다.

  • 모수와 통계량
    모집단의 특성을 수치로 나타낸 것을 모수라고 하며, 표본의 특성을 수치로 나타낸 것을 통계량이라고 한다.
    모집단 또는 표본의 특성을 나타내는 것으로는 평균/분산/표준편차 등이 있는데 모집단과 표본의 특성을 표현하는 차이를 두기 위해서 다른 기호를 사용한다.

  • 추리통계학
    추리 통계학은 모집단에서 뽑은 표본을 분석하여 이를 기초로 모집단의 특성을 규명하는 통계학이다.

2. 데이터의 종류와 특징

  데이터는 양적 자료와 질적 자료로 구분할 수 있고 양적 자료는 다시 수치로 나타낼 수 있는 자료 계수형(이산형) 자료 , 계량형(연속형) 자료로 구분되고 질적 자료는 수치로 나타낼 수 없는 자료로 종교, 성별, 직업 등과 같은 것이 있을 수 있다.

  • 대푯값
    데이터가 어디에 집중되어 있는가를 나타내 주는 것으로서 집중화 경향을 보여주는 것이다.
    대푯값을 산출하는 방법에는 산술평균, 중앙값, 최빈값 등이 있다. 

    - 산술평균 : 산술평균은 모든 데이터의 합을 모든 데이터의 수로 나눈 값으로 흔히 많이 말하는 평균이다.
    - 중앙값 : 중앙값이란, 데이터를 크기 순서대로 늘어놨을 때 가장 가운데에 있는 값으로 극단값에 영향을 많이 받는 산술 평균의 약점을 보완하기에 좋지만 통계 분석 상의 어려움이 많다.
    - 최빈값 : 모든 데이터 중에서 가장 빈번하게 나타나는 값으로 이상치에 둔감한 대표값을 가질 때 용이하나 통계분석상의 어려움이 있다.

3. 산포의 이해

  산포는 데이터의 흩어진 정도를 나타낸 척도로써 대표 값만으로 정보를 충분히 얻을 수 없는 경우 분산, 표준편차, 범위를 이용하여 계산한다.

 

  • 표준편차와 분산
    분산 데이터들이 평균으로부터 얼마나 떨어져 있는가를 구하기 위한 척도로 자료의 개별 값이 전체 평균으로부터 얼마만큼 떨어져 있는지를 나타내는 값이다.
    표준편차는 분산 값에 루트를 씌어주어 구한다.

  • 데이터와 분포의 종류
    계수형 데이터와 계량형 데이터가 있고 이러한 데이터들의 통계적 분석은 확률분포에서 시작된다.
    계수형(이산 형) 데이터의 확률분포에는 이항 분포, 포아송 분포가 있고, 계량형(연속 형) 데이터에는 정규분포, 지수 분포, 와이블 분포가 있다. (본 학습과정 포함 내용)

 4. 이항 분포

  어떤 실험의 결과를 오직 두 가지 중의 하나로 생각할 수 있는 실험을 말한다. 동전 던지기에서 나올 수 있는 결과는 앞면 또는 뒷면 두 가지뿐 인 것이 좋은 예이다. 이때 성공 확률은 각각 50 대 50으로 동일하고 이와 같은 것을 바로 베르누이 시행이라고도 한다. 이러한 베르누이 시행을 독립적으로 반복 시행하여 성공 또는 실패할 횟수를 이항 확률변수 라 하고, 이 성공 횟수의 분포를 이항 분포라 한다. 이항 분포는 주로 발생한 빈도의 비율, 또는 백분율로 경영 활동 자료에서 자주 사용된다.

 

  • 이항 확률 분포의 질량 함수

5. 포아송 분포

  일정한 시간 동안 특정 사상(사건)이 발생했던 평균을 근거로 하여 특정 사상(사건)의 발생 횟수에 대한 확률을 나타내 주는 분포로 포아송 분포는 주로 시간적으로나 공간적으로 발생 빈도가 낮은 희귀한 사건의 단위당 발생 수 등에 적용되는 분포이다.

  • 포아송 분포의 확률 질량 함수

6. 정규분포

  정규 곡선(Normal curve)으로 부터 유래한 분포로서 18세기 초 가우스 (Karl F.Gauss)가 물리 계측의 오차를 계산하는 과정에서 도입된 확률 분포이다. 정규분포는 연속 확률분포 중에서 가장 널리 이용되는 분포로 표본을 통한 통계적 추정 및 가설검정 이론의 기본이다. 정규 분포는 Normal Distribution이라고도 한다.


  Normal이라고 한 이유는 세상의 일반적인 현상들이 이 분포의 모양을 갖추고 있기 때문이고 정규 분포를 그리기 위해서 우리는 2가지 정보를 갖고 있어야 한다. 바로 데이터들의 평균과 표준편차로 이때, 표준편차는 평균을 중심으로 데이터들이 얼마나 떨어져 있는가를 나타내는 값이다. 그러므로 이 정규 분포에서는 표준 편차가 클수록 그래프는 더 퍼진 모양이 된다. 

  • 정규분포의 특징
    정규분포의 모양과 위치는 분포의 표준편차와 평균으로 결정된다.
    정규분포의 확률 밀도 함수는 평균을 중심으로 대칭인 종 모양이다.
    정규 곡선은 X축에 맞닿지 않으므로 확률변수 X가 취할 수 있는 값의 범위는 -무한대부터 +무한대까지 이다.
    분포의 평균과 표준편차가 어떤 값을 갖더라도, 정규 곡선과 X축 사이의 전체면적은 1이다.

  • z 분포란?
    표준화된 정규 분포 내의 모든 개별 값들은 각각의 Z값을 가지게 되며 이를 정리한 것이 표준 정규 분포이다.

 

반응형