EDA 문제 유형별 그래픽 기법
1. EDA를 통해 답을 얻을 수 있는 질문들
- 대표값?
- 대표값에 대한 불확도?
- 일련의 숫자들에 잘 맞는 분포?
- 백분위수?
- 공학적 변경이 효과를 보이는가?
- 어떤 인자가 효과를 보이는가?
- 가장 중요한 인자?
- 여러 실험실에서 오는 관측치들이 모두 동등한지
- X, Y를 관계짓는 최선의 함수?
- 인자들에 대한 최선의 설정
- 시계열 데이터의 신호에서 noise 분리 가능?
- 다변량 데이터에서 어떤 구조를 추출할 수 있는가?
- 이상치?
2. EDA 단계
- 위의 질문들 중 적절한 것 선택
- 질문을 중요도에 따라 정렬
- 질문에 적합한 기법 파악
3. EDA 기법: 그래픽 분석
3.1 단변량 문제(univariate)
- Run Sequence Plot
- Lag plot
- Histogram
- Probability Plot
- 4-Plot
- PPCC Plot
- Webull Plot
- Normal Probability plot
- Box-Cox Linearity Plot
- Box-cox Normality Plot
- Bootstrap Plot
3.2. 단일 인자 문제
- Scatter Plot
- Box plot
- Bihistogram
- QQ Plot
- Mean Plot
- Standard Deviation Plot
4. 계량적 기법: 전통적 통계 기법
- EDA와 상호보완적으로 사용
- EDA 통해 발견한 사실 기반의 가설 구축 및 원인규명
- 결과가 그래픽 분석과 다르면 추가 분석 필요
- 주요 기법
- 구간 추정
- 가설검정
'AI Theory > Visualization' 카테고리의 다른 글
EDA 그래픽 기법과 계량적 기법의 종류 (0) | 2022.11.21 |
---|---|
[EDA] 데이터 측정 과정의 기본 가정 (0) | 2022.11.21 |
탐색적 데이터 분석(EDA)이란? (0) | 2022.11.21 |
[파이썬 캐글뽀개기] 상관관계 히트 맵 (0) | 2022.07.01 |
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) (0) | 2022.06.24 |