탐색적 데이터 분석(Explorary Data Analysis, EDA)이란?
- 데이터 과학 과정의 가장 중요한 부분 중 하나
- 편견, 선험적 기대 없이 도표, 그래프, 요약 통계 등을 활용하여 통계학을 수행
- 그래픽한 방법을 주로 사용
EDA의 목표
- 데이터에 대한 통찰 얻기
- 드러나지 않았던 데이터의 구조 발견
- 가장 적합하면서 단순한 모델 찾기
- 이상치, 결측치 탐지
- 드러나지 않은 가정에 대한 테스트
- 추측, 가설의 생성
- 파라미터에 대한 추정치와 그 추정치에 대한 불확실성
- 변수 중요도 파악
- 개별 변수들이 통계적으로 유의미한지에 대한 결론
- 인자에 대한 최적 설정
EDA의 단계
- 연구를 위한 research question 생각하기
- 데이터 재구조화: 기존 데이터에서 새로운 변수 생성
- research question를 기반으로 각종 그래픽 도구 사용하고 기술 통계량(평균, 최솟값, 최댓값, 사분위수, 이상값) 구함
- 데이터의 구조, 상관관계, 이상치, 예상외의 움직임 파악
- confounding variables(교란 변수)*, 상호작용 관계, 다중공선성(multicollinearity)* 파악
- 결측치 처리
- 반응변수*, 설명변수*에 대한 데이터 변환의 필요성에 대한 결정
- research question을 기반으로 가설 결정
EDA 이후의 단계
확증적 데이터 분석: 통계적 분석을 통한 가설 검증
결론 내리기
결과 발표
EDA의 특징
- 근본적으로 그래픽 + 약간의 계량적 기법
- 계량적 과정: 숫자, 표 형식의 결과 산출
- 가설 검정
- 분산 분석
- 점추정 및 신뢰구간
- 최소 제곱 회귀 등
- 그래픽 과정
- 산점도
- 히스토그램
- 확률도포
- 잔차 도표
- 상자 도표
- 블록 도표
- 계량적 과정: 숫자, 표 형식의 결과 산출
EDA의 유형
문제 유형 | 데이터 | 모델 | 결과 |
단변량(Univariate) | X, Y | y = constant + error | 1. 모델의 수치값(constant) 추정 2. constant에 대한 불확실성 추정 3. error에 대한 분포 추정 |
컨트롤(Control) | X, Y | y = constant + error | 시스템이 고장났는가? 에 대한 예/아니오 |
비교분석(Comparative) | X1, X2, ... Xn, Y | y = f(x1, x2, ..., xn) + error | 주요 인자가 유의한가? 에 대한 예/아니오 |
스크리닝(Screening) | X1, X2, ... Xn, Y | y = f(x1, x2, ..., xn) + error | 1. 인자 중요도 측정 2. 인자들에 대한 최적의 설정 3. y와 인자들을 관련짓는 좋은 모델식 |
최적화(Optimization) | X1, X2, ... Xn, Y | y = f(x1, x2, ..., xn) + error | 인자 변수들에 대한 최적의 설정 |
회귀(Regression) | X1, X2, ... Xn, Y | y = f(x1, x2, ..., xn) + error | y와 인자들을 관련짓는 좋은 모델식 |
시계열(Time series) | X(time), Y(시간종속적) | y = f(t) + error | y를 이전의 y와 관련짓는 좋은 모델식 |
다변량(Multivariate) | X1, X2, ... Xn | 데이터에서 이면의 상관관계 구조 식별 | y와 인자들을 관련짓는 좋은 모델식 |
cf. 용어해설
confounding variables(교란 변수)
- 원인 변수 x와 결과변수 y에 모두 영향을 주면서 x,y간 상관관계를 형성하는 변수.
- 교란 변수이기 위해서는 1.원인변수와 결과변수에 모두 연관 2.각각에 불균형적으로 분배됨 3.(원인변수)--(casual pathway)-->(결과변수) 사이, 즉 원인변수가 결과변수로 변하는 과정의 중간에 있어선 안됨
다중공선성(multicollinearity)
- 독립변수들 간 강한 상관관계가 나타나는 문제
- 진단
- 결정계수 R2는 높지만 독립변수의 p-value가 큰 경우 의심
- 독립변수 간 상관계수 구함
- 분산팽창요인(VIF)가 10 이상
- 해결
- 상관관계가 높은 독립변수 중 하나 or 일부를 제거한다.
- 변수 변형시키거나 새로운 관측치 이용
- 자료 수집 과정에서 상관관계가 발생하는 이유를 파악하여 해결
- 주성분 분석(pca)수행
설명변수(explanatory variable): 두 변수의 관계에서 설명을 하는 변수
반응변수(response variable): 설명변수에 의해 반응하는 변수
'AI Theory > Visualization' 카테고리의 다른 글
EDA 그래픽 기법과 계량적 기법의 종류 (0) | 2022.11.21 |
---|---|
[EDA] 데이터 측정 과정의 기본 가정 (0) | 2022.11.21 |
[파이썬 캐글뽀개기] 상관관계 히트 맵 (0) | 2022.07.01 |
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) (0) | 2022.06.24 |
[파이썬 캐글뽀개기] Matplotlib - 박스 플롯(BOX PLOT) (0) | 2022.06.24 |