본문 바로가기

AI Theory/Visualization

EDA 문제 유형별 그래픽 기법

EDA 문제 유형별 그래픽 기법

 

1. EDA를 통해 답을 얻을 수 있는 질문들

  • 대표값?
  • 대표값에 대한 불확도?
  • 일련의 숫자들에 잘 맞는 분포?
  • 백분위수?
  • 공학적 변경이 효과를 보이는가?
  • 어떤 인자가 효과를 보이는가?
  • 가장 중요한 인자?
  • 여러 실험실에서 오는 관측치들이 모두 동등한지
  • X, Y를 관계짓는 최선의 함수?
  • 인자들에 대한 최선의 설정
  • 시계열 데이터의 신호에서 noise 분리 가능?
  • 다변량 데이터에서 어떤 구조를 추출할 수 있는가?
  • 이상치?

2. EDA 단계

  • 위의 질문들 중 적절한 것 선택
  • 질문을 중요도에 따라 정렬
  • 질문에 적합한 기법 파악

3. EDA 기법: 그래픽 분석

3.1 단변량 문제(univariate)

  • Run Sequence Plot
  • Lag plot
  • Histogram
  • Probability Plot
  • 4-Plot
  • PPCC Plot
  • Webull Plot
  • Normal Probability plot
  • Box-Cox Linearity Plot
  • Box-cox Normality Plot
  • Bootstrap Plot

3.2. 단일 인자 문제

  • Scatter Plot
  • Box plot
  • Bihistogram
  • QQ Plot
  • Mean Plot
  • Standard Deviation Plot

4. 계량적 기법: 전통적 통계 기법

  • EDA와 상호보완적으로 사용
  • EDA 통해 발견한 사실 기반의 가설 구축 및 원인규명
  • 결과가 그래픽 분석과 다르면 추가 분석 필요
  • 주요 기법
    • 구간 추정
    • 가설검정