[EDA] 데이터 측정 과정의 기본 가정
- 무작위 추출
- 고정된 분포
- 고정 위치를 갖는 분포
- 고정 분산(변동성)을 갖는 분포
4가지 기본 가정이 성립되면, 확률적 예측가능성을 달성한 것. 즉 통계적 통제 상태에 있는 것
4가지 기본 가정이 성립하지 않으면, 위치/분산/분포에 대해 표류(drifting)하고 있는 것. 예측불가능하며 통제불능
4가지 기본 가정을 만족하느냐를 일상적으로 확인 해야한다.
기본 가정 4가지 | 가정이 성립하는 경우 | 성립하지 않는 경우 | 가정이 성립하지 않을 때 결과 | 사례 |
무작위 추출 | lag plot이 구조가 없는 랜덤한 모양 | 비무작위성 | 1. 통계 테스트가 모두 유효하지 않음 2. 계산된 최소 표본 크기가 의미없음 3. 단순모델이 유효하지 않음 파라미터 추정치가 의심스럽고 지지받지 못함 |
자기상관에 기인한 비무작위성 |
고정된 분포 | Histogram은 종 모양을 갖고,Normal probability plot은 선형 | 분포, 모델, 과정에 문제발생 | ||
고정 위치를 갖는 분포 | Run sequence plot은 평평하고 표류하지 않을 것 | 비고정 위치 파라미터 | 위치 추정 by 표본평균 1. 위치가 표류할 수 있음 2. 위치가 표류할 경우 하나의 위치 추정치는 의미없을 수 있음 3. 위치 추정량이 최적이 아닐 수 있음 4. 평균에 대한 표준 불확도가 유호하지 않고 낙관적으로 작은 값일 수 있음 |
|
고정 분산을 갖는 분포 | Run sequence plot에서 수직적 퍼짐이 전체 수평 구간에 걸쳐 일정 | 비고정 분산 파라미터 | 표본 분산의 불편 추정량 1. 분산이 표류할 수 있음 2. 단일 분산 추정치가 무의미할 수 있음 3. 분산 추정치의 품질이 낮을 수 있음 4. 분산 추정치가 편향되었을 수 있음 |
'AI Theory > Visualization' 카테고리의 다른 글
EDA 문제 유형별 그래픽 기법 (0) | 2022.11.28 |
---|---|
EDA 그래픽 기법과 계량적 기법의 종류 (0) | 2022.11.21 |
탐색적 데이터 분석(EDA)이란? (0) | 2022.11.21 |
[파이썬 캐글뽀개기] 상관관계 히트 맵 (0) | 2022.07.01 |
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) (0) | 2022.06.24 |