본문 바로가기

AI Theory/Visualization

[EDA] 데이터 측정 과정의 기본 가정

[EDA] 데이터 측정 과정의 기본 가정

  1. 무작위 추출
  2. 고정된 분포
  3. 고정 위치를 갖는 분포
  4. 고정 분산(변동성)을 갖는 분포

4가지 기본 가정이 성립되면, 확률적 예측가능성을 달성한 것. 즉 통계적 통제 상태에 있는 것

4가지 기본 가정이 성립하지 않으면, 위치/분산/분포에 대해 표류(drifting)하고 있는 것. 예측불가능하며 통제불능

 

4가지 기본 가정을 만족하느냐를  일상적으로 확인 해야한다.

 

기본 가정 4가지 가정이 성립하는 경우 성립하지 않는 경우 가정이 성립하지 않을 때 결과 사례
무작위 추출 lag plot이 구조가 없는 랜덤한 모양 비무작위성 1. 통계 테스트가 모두 유효하지 않음
2. 계산된 최소 표본 크기가 의미없음
3. 단순모델이 유효하지 않음
파라미터 추정치가 의심스럽고 지지받지 못함
자기상관에 기인한 비무작위성
고정된 분포  Histogram은 종 모양을 갖고,Normal probability plot은 선형   분포, 모델, 과정에 문제발생  
고정 위치를 갖는 분포 Run sequence plot은 평평하고 표류하지 않을 것 비고정 위치 파라미터 위치 추정 by 표본평균
1.  위치가 표류할 수 있음
2. 위치가 표류할 경우 하나의 위치 추정치는 의미없을 수 있음
3. 위치 추정량이 최적이 아닐 수 있음
4. 평균에 대한 표준 불확도가 유호하지 않고 낙관적으로 작은 값일 수 있음

 
고정 분산을 갖는 분포  Run sequence plot에서 수직적 퍼짐이 전체 수평 구간에 걸쳐 일정 비고정 분산 파라미터 표본 분산의 불편 추정량
1. 분산이 표류할 수 있음
2. 단일 분산 추정치가 무의미할 수 있음
3. 분산 추정치의 품질이 낮을 수 있음
4. 분산 추정치가 편향되었을 수 있음