6 Sigma/일반 이론

[6Sigma] 데이터 수집 및 분석

야곰야곰+책벌레 2021. 6. 17. 07:31
반응형

1. 데이터 수집 절차 이해

  중요 잠재 인자가 CTQ에 영향을 미치는 근본 원인인지를 확인하는 검증하고 관계 분석 및 가설 설정을 통해 객관성을 확보하고 불필요한 분석을 사전에 방지할 뿐만 아니라 체계적 계획 수립을 통한 분석 결과의 오류 예방하기 위한 것이다.

  • 데이터 수집 계획의 절차
    1단계 : 잠재인자 구조화를 통한 가설 도출은 MECE적 사고로 Logic tree를 이용해서 구조화하여 문제의 구조를 파악한다.
    2단계 : 가설 검증 방법 결정하기 위해 통계적 검증 방법과 정성적 검증 방법을 사용한다.
    3단계 : 가설 검증 방법에 따라 수집해야 할 데이터 항목 선정 및 수집 데이터를 파악한다.
    4단계 : 편의(Bias) 없이 모집단을 대표 할 수 있도록 샘플링 및 샘플 크기 결정
    5단계 : 자료수집을 위한 관련 사실과 상황에 가장 쉽고 빠르게 접근할 수 있는 데이터 수집 원 선정
    6단계 : 누구나 이해가능하고 오류 가능성이 적도록 데이터 수집 양식과 지침서를 작성한다.
    7단계 : 마지막으로 데이터 수집 실행 시 오류가 발생하지 않도록 데이터 수집 계획서를 검토 및 보완한다.

 

2. 데이터 수집 계획서 작성

데이터 수집 계획서 작성 예

3. 그래프 분석

  데이터의 특성과 변화를 한눈에 알아 볼 수 있고 데이터를 시각화함으로써 누구나 쉽게 이해할 수 있고 커뮤니케이션이 용이해져서 설득력을 확보하기도 쉬울 뿐만 아니라 심도 있는 재분석을 하기에 용이하다. 무엇보다도 통계적 해석의 오류를 사전에 예방할 수 있다.


4. 그래프 분석의 종류

  • 히스토그램을 이용하면 분포의 모양과 산포, 중심의 위치 파악을 용이하다.
    히스토그램의 가로축은 데이터의 구분된 구간이고 세로축은 그 구간에 해당되는 데이터의 개수입니다.        

  • 산점도는 두 변수가 모두 연속 데이터일 때 사용하며, 산점도를 이용하면 두 변수간의 관계를 시각적으로 쉽게 파악할 수 있고 데이터들이 어디에 밀집해 있는지도 파악할 수 있다.

  • 파레토 차트는 막대그래프 뿐 아니라, 중요도 비율, 누적선을 보여 주어 중요 항목이 전체에 얼마큼의 비중을 차지하는지 파악할 수 있게 한다. 
    문제의 원인을 쉽게 알아냄으로써 중점관리 항목 선정에 효과적이다.
           

  • Box Plot은 점 대신에 상자 모양들이 분포를 나타내는 그래프이다.
    여러 그룹간의 데이터 분포에 대한 차이점뿐만 아니라 중심위치와 산포를 비교할 수 있다. 

  • Time Series Plot은 시간의 경과에 따른 데이터의 변화를 알려준다.
    Time Series Plot는 히스토그램처럼 데이터의 크기를 보여주지는 못하나 시간 변화에 따른 변수의 변화를 알려 주므로 경향이나 주기를 파악하는데 유용한 방법이다.

 

5. 통계적 가설 검정이란?

  어떤 현상을 설명하거나 이론을 증명하기 위하여 세우는 명제인 가설을 통계적(확률 추정치로)으로 입증하는 것을 말한다.


6. 통계적 가설 검정의 절차

  • Step 1. 가설 설정
    통계적 가설에는 귀무가설과 대립 가설이 있습니다.
    귀무가설이라 하면, 기각하기를 희망하여 형식화 한 가설 즉, 이미 알고 있는 사실이나, 현상에 대한 가설을 말하며 일반적으로 Ho로 표기합니다. 대립 가설이라 하면, 표본을 통하여 입증하고자 하는 새로운 가설 즉, 새로운 주장이나 증명하고자 하는 이론에 대한 가설을 말하며 일반적으로 Ha로 표기합니다.

  • Step 2. Data의 특성 파악
    통계적 검정 Tool은 검정하려고 하는 데이터의 형태가 계량형이냐, 계수형이냐에 따라 달라진다.
    가령, 계량형 데이터는 무게, 치수, 온도, 압력, 저항 등과 같은 것이고 계수형 데이터는 불량품 수, 결함 수와 같은 것이 있을 수 있다.

  • Step 3. 검정 방법 결정 및 데이터 수집
    Data의 특성을 파악한 후에는 검정 방법을 결정하고 필요한 데이터를 수집해야 한다.
    (수집 절차는 앞 차시 학습내용을 참고하세요.) 

  • Step 4. 가설검정
    통계적인 검정 결과에 대한 판단을 하는 방법은 첫째, P-value를 통한 방법, 둘째 통계량의 계산을 통해 결론을 내리는 방법, 셋째 신뢰구간을 통해 결론을 내리는 방법이 있다.
    P-value는 우리가 귀무가설을 기각할 때 이것이 잘못 결정될 수 있는 확률이며 가설을 검정하는 최후의 단계에서 P 값과 유의 수준을 비교하는데 유의성의 판단은 P-value가 유의 수준보다 작으면 귀무가설을 기각되고. 이와 반대로 P-value이 유의 수준보다 크다면 귀무가설을 기각할 수 없다.

 

       - P- value
         주어진 데이터에 의거해 귀무가설을 기각할 때 제1종 오류를 범할 확률의 최대 값
       - 유의성 판단 : P값과 유의 수준을 비교 P값 < 유의 수준(a) -> 귀무가설 기각
          P값 > 유의수준(a) -> 귀무가설 채택
  • 계량형 데이터의 검정 방법 

  • 계수형 데이터의 검정 방법

7. 상관계수를 이용한 상관분석

  • 상관분석이란?
    X와 Y 또는 X와 X사이의 관련성을 수치로 확인하는 분석으로 즉, 두 변수 간에 어떤 관계가 있는지, 얼마나 강한 관계가 있는지 알아보는 분석 방법이다.

  • 상관계수란?
    상관계수는 측정값 (x, y)에 대하여 n개인 측정값 (x1, y1), (x2, y2), …, (xń, yń)이 주어졌을 때 다음과 같이 x와 y의 간의 평균과 표준편차에 의한 공식의 값을 상관계수라고 한다.
    상관계수는 보통 r로 표시하며, 상관계수 r의 범위는 마이너스 1보다 크거나 같고 1보다 작거나 같다. 이때 r값이 플러스면, 양의 상관관계, r값이 마이너스이면 음의 상관관계를 갖는다고 하고, r값이 0에 가까우면 상관관계가 없다고 한다.

 

8. 회귀분석과 잔차분석

  • 회귀분석이란?
    회귀분석은 X가 Y에 미치는 영향력이 얼마나 되는지 예측하고자 할 때, 그 관계를 함수관계로 나타내어 분석하는 방법이다. 회귀분석은 두 개 이상의 변수 사이의 관계에 대한 식을 세우고, 이 식을 통해 결과를 예측한다.

  • 상관분석과 회귀분석의 차이

  • 회귀분석의 절차
    데이터 수집을 하고 산점도를 그려서 그 결과를 분석하고 회귀식을 추정한다.
    추정된 회귀선의 결과를 해석한 후 마지막으로 잔차 분석을 통해 이 회귀식이 적합한지를 확인한다.

  • 회귀식의 추정
    x값의 변화에 따른 y값의 변화를 잘 대표할 수 있는 관계식으로 즉, 잔차의 제곱함이 최소가 되는 식 

  • 회귀분석 결과 해석
    회귀식의 적합도를 가장 잘 표현하는 것이 R-sq(스퀘어)이다. R-sq는 y의 총변동을 회귀식 내의 x인자가 얼마만큼 설명해 주는지를 나타내는 결정계수로 R-sq값이 클수록 회귀식이 적합하다고 보고 작을수록 적합하다고 보기 어렵다. 
R-sq = (회귀 변동)/(총 변동)
  • 잔차분석
    회귀모형에 대한 가정의 충족 여부의 검토와 이상 값의 개입 여부에 대해 검토하는 일련의 절차로 이해해도 좋다.
     
반응형

'6 Sigma > 일반 이론' 카테고리의 다른 글

[6Sigma] 근본원인 선정  (0) 2021.06.17
[6Sigma] 잠재인자 발굴  (0) 2021.06.16
[6Sigma] 현 수준 파악 및 목표 설정  (0) 2021.06.15
[6Sigma] 데이터 신뢰성 확인  (0) 2021.06.14
[6Sigma] 기초 통계  (0) 2021.06.14