본문 바로가기

반응형

AI Theory/Visualization

(9)
EDA 문제 유형별 그래픽 기법 EDA 문제 유형별 그래픽 기법 1. EDA를 통해 답을 얻을 수 있는 질문들 대표값? 대표값에 대한 불확도? 일련의 숫자들에 잘 맞는 분포? 백분위수? 공학적 변경이 효과를 보이는가? 어떤 인자가 효과를 보이는가? 가장 중요한 인자? 여러 실험실에서 오는 관측치들이 모두 동등한지 X, Y를 관계짓는 최선의 함수? 인자들에 대한 최선의 설정 시계열 데이터의 신호에서 noise 분리 가능? 다변량 데이터에서 어떤 구조를 추출할 수 있는가? 이상치? 2. EDA 단계 위의 질문들 중 적절한 것 선택 질문을 중요도에 따라 정렬 질문에 적합한 기법 파악 3. EDA 기법: 그래픽 분석 3.1 단변량 문제(univariate) Run Sequence Plot Lag plot Histogram Probability..
EDA 그래픽 기법과 계량적 기법의 종류 EDA 그래픽 기법과 계량적 기법의 종류 EDA 그래픽 기법 Probability plot Normal probability plot Lag plot Run Sequence plot Histogram Scatter plot Scatterplot matrix Heatmap seaborn.FaceGrid seaborn.PairGrid seaborn.relplot Box plot Bihistogram Quantile-Quantile plot Autocorrelation plot Spectral plot 4-plot 6-plot EDA 계량적 기법 점추정 구간추정 가설검정 단일집단 모평균 가설검정 두 집단 모평균 가설검정 짝진 표본의 모평균 가설검정 위치측도 신뢰구간 앞으로 정리할 계획!
[EDA] 데이터 측정 과정의 기본 가정 [EDA] 데이터 측정 과정의 기본 가정 무작위 추출 고정된 분포 고정 위치를 갖는 분포 고정 분산(변동성)을 갖는 분포 4가지 기본 가정이 성립되면, 확률적 예측가능성을 달성한 것. 즉 통계적 통제 상태에 있는 것 4가지 기본 가정이 성립하지 않으면, 위치/분산/분포에 대해 표류(drifting)하고 있는 것. 예측불가능하며 통제불능 4가지 기본 가정을 만족하느냐를 일상적으로 확인 해야한다. 기본 가정 4가지 가정이 성립하는 경우 성립하지 않는 경우 가정이 성립하지 않을 때 결과 사례 무작위 추출 lag plot이 구조가 없는 랜덤한 모양 비무작위성 1. 통계 테스트가 모두 유효하지 않음 2. 계산된 최소 표본 크기가 의미없음 3. 단순모델이 유효하지 않음 파라미터 추정치가 의심스럽고 지지받지 못함 자..
탐색적 데이터 분석(EDA)이란? 탐색적 데이터 분석(Explorary Data Analysis, EDA)이란? 데이터 과학 과정의 가장 중요한 부분 중 하나 편견, 선험적 기대 없이 도표, 그래프, 요약 통계 등을 활용하여 통계학을 수행 그래픽한 방법을 주로 사용 EDA의 목표 데이터에 대한 통찰 얻기 드러나지 않았던 데이터의 구조 발견 가장 적합하면서 단순한 모델 찾기 이상치, 결측치 탐지 드러나지 않은 가정에 대한 테스트 추측, 가설의 생성 파라미터에 대한 추정치와 그 추정치에 대한 불확실성 변수 중요도 파악 개별 변수들이 통계적으로 유의미한지에 대한 결론 인자에 대한 최적 설정 EDA의 단계 연구를 위한 research question 생각하기 데이터 재구조화: 기존 데이터에서 새로운 변수 생성 research question를 ..
[파이썬 캐글뽀개기] 상관관계 히트 맵 [파이썬 캐글뽀개기] 상관관계 히트 맵 상간관계 분석 두 개 이상 변수 간 상호 관련성 판단 상관 관계 분석의 종류: 피어슨, 스피어만, 켄달, 점이연, 이연 상관 계수 일반적인 상관관계 분석은 피어슨 상관관계 분석을 의미 R: 두 변수 간 선형적 관계의 강도 공분산(Covariance)과 상관 계수(Corelation) 수치형 변수 간 상관관계 나타내는 지표 공분산 X변수와 Y변수가 동시에 변하는 정도 X의 편차와 Y의 편차의 곱의 평균 *편차: 변량-평균 방향성만 가짐 결과값이 양수: 양의 선형 관계 결과값이 음수: 음의 선형 관계 표준화작업 필수: 공분산의 크기는 단위의 영향을 받아 일정한 값을 가질 수 없으므로 표준화작업을 통해 척도에 상관없이 계산 가능하도록 함 예를 들어 몸무게 단위 KG 사용..
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) [파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) 다양한 강도, 색상으로 데이터 범위를 시각화 ex. 상관행렬의 히트맵 표시 matplotlib의 Imshow 함수 이용 #heat map import matplotlib.pyplot as plt import numpy as np import seaborn as sns flights = sns.load_dataset('flights') flights = flights.pivot("month","year","passengers") fig, ax = plt.subplots(figsize=(12,6)) im = ax.imshow(flights, cmap='YlGnBu') ax.set_xticklabels(flights.columns, rot..
[파이썬 캐글뽀개기] Matplotlib - 박스 플롯(BOX PLOT) [파이썬 캐글뽀개기] 박스 플롯(BOX PLOT) 범주형 데이터를 기준으로 수치형 데이터의 분포 파악에 적합 Outlier: 이상치 Max: 전체 데이터 중 최댓값 Upper Quartile(Q1): 제1사분위수. 전체 데이터의 25%지점 Median: 전체 데이터 중 50%에 해당하는 중앙값 Lower Quartile(Q3): 제3사분위수. 전체 데이터의 75%이내값 Min: 최솟값 IQR: InterQuartile Range의 약어. Q3 - Q1으로 계산.
[파이썬 캐글 뽀개기] Matplotlib 라이브러리 파이썬 시각화 이론편 Matplotlib 라이브러리 파이썬 데이터 시각화의 기본 뼈대 복잡하고 다루기 어려움 >>> seaborn 라이브러리 등장 matplotlib 그래프를 구현하는 방법 pyplot api matplotlib.pyplot 모듈의 함수들을 각각 불러와서 구현. 사용 편리 객체 지향 api matplotlib에 구현된 객체 지향 라이브러리를 직접 활용. 그래프의 각 구성요소 다양하게 제어하고 싶을 때. 사용하기 복잡 pyplot API + 객체 지향 API 실전에서 자주 사용 기존 객체지향API와 다르게 PLT클래스 활용 Seaborn 라이브러리 그림 그리기 easy 통계 결과를 간편하고 아름답게 파이썬 시각화 그래프의 기본 용어 Figure 전체 그래프 그림 Axes 그래프가 그려지는 ..

반응형