본문 바로가기

AI Theory/Visualization

탐색적 데이터 분석(EDA)이란?

탐색적 데이터 분석(Explorary Data Analysis, EDA)이란?

  • 데이터 과학 과정의 가장 중요한 부분 중 하나
  • 편견, 선험적 기대 없이 도표, 그래프, 요약 통계 등을 활용하여 통계학을 수행
  • 그래픽한 방법을 주로 사용

 

EDA의 목표

  1. 데이터에 대한 통찰 얻기
  2. 드러나지 않았던 데이터의 구조 발견
  3. 가장 적합하면서 단순한 모델 찾기
  4. 이상치, 결측치 탐지
  5. 드러나지 않은 가정에 대한 테스트
  6. 추측, 가설의 생성
  7. 파라미터에 대한 추정치와 그 추정치에 대한 불확실성
  8. 변수 중요도 파악
  9. 개별 변수들이 통계적으로 유의미한지에 대한 결론
  10. 인자에 대한 최적 설정

EDA의 단계

  1. 연구를 위한 research question 생각하기
  2. 데이터 재구조화: 기존 데이터에서 새로운 변수 생성
  3. research question를 기반으로 각종 그래픽 도구 사용하고 기술 통계량(평균, 최솟값, 최댓값, 사분위수, 이상값) 구함
  4. 데이터의 구조, 상관관계, 이상치, 예상외의 움직임 파악
  5. confounding variables(교란 변수)*, 상호작용 관계, 다중공선성(multicollinearity)* 파악
  6. 결측치 처리
  7. 반응변수*, 설명변수*에 대한 데이터 변환의 필요성에 대한 결정
  8. research question을 기반으로 가설 결정

EDA 이후의 단계

확증적 데이터 분석: 통계적 분석을 통한 가설 검증

결론 내리기

결과 발표

 

EDA의 특징

  • 근본적으로 그래픽 + 약간의 계량적 기법
    • 계량적 과정: 숫자, 표 형식의 결과 산출
      • 가설 검정
      • 분산 분석
      • 점추정 및 신뢰구간
      • 최소 제곱 회귀 등
    • 그래픽 과정
      • 산점도
      • 히스토그램
      • 확률도포
      • 잔차 도표
      • 상자 도표
      • 블록 도표

 

EDA의 유형

문제 유형 데이터 모델 결과
단변량(Univariate) X, Y y = constant + error 1. 모델의 수치값(constant) 추정
2. constant에 대한 불확실성 추정
3. error에 대한 분포 추정
컨트롤(Control) X, Y y = constant + error 시스템이 고장났는가? 에 대한 예/아니오 
비교분석(Comparative) X1, X2, ... Xn, Y y = f(x1, x2, ..., xn) + error 주요 인자가 유의한가? 에 대한 예/아니오
스크리닝(Screening) X1, X2, ... Xn, Y y = f(x1, x2, ..., xn) + error 1. 인자 중요도 측정
2. 인자들에 대한 최적의 설정
3. y와 인자들을 관련짓는 좋은 모델식
최적화(Optimization) X1, X2, ... Xn, Y y = f(x1, x2, ..., xn) + error 인자 변수들에 대한 최적의 설정
회귀(Regression) X1, X2, ... Xn, Y y = f(x1, x2, ..., xn) + error y와 인자들을 관련짓는 좋은 모델식
시계열(Time series) X(time), Y(시간종속적) y = f(t) + error y를 이전의 y와 관련짓는 좋은 모델식
다변량(Multivariate) X1, X2, ... Xn 데이터에서 이면의 상관관계 구조 식별 y와 인자들을 관련짓는 좋은 모델식

 

 

cf. 용어해설

confounding variables(교란 변수)

  • 원인 변수 x와 결과변수 y에 모두 영향을 주면서 x,y간 상관관계를 형성하는 변수.
  • 교란 변수이기 위해서는 1.원인변수와 결과변수에 모두 연관 2.각각에 불균형적으로 분배됨 3.(원인변수)--(casual pathway)-->(결과변수) 사이, 즉 원인변수가 결과변수로 변하는 과정의 중간에 있어선 안됨

 

다중공선성(multicollinearity)

  • 독립변수들 간 강한 상관관계가 나타나는 문제
  • 진단
    • 결정계수 R2는 높지만 독립변수의 p-value가 큰 경우 의심
    • 독립변수 간 상관계수 구함
    • 분산팽창요인(VIF)가 10 이상
  • 해결
    • 상관관계가 높은 독립변수 중 하나 or 일부를 제거한다.
    • 변수 변형시키거나 새로운 관측치 이용
    • 자료 수집 과정에서 상관관계가 발생하는 이유를 파악하여 해결
    • 주성분 분석(pca)수행

 

설명변수(explanatory variable): 두 변수의 관계에서 설명을 하는 변수

반응변수(response variable): 설명변수에 의해 반응하는 변수