본문 바로가기

반응형

AI Theory

(81)
[파이썬 캐글뽀개기] 상관관계 히트 맵 [파이썬 캐글뽀개기] 상관관계 히트 맵 상간관계 분석 두 개 이상 변수 간 상호 관련성 판단 상관 관계 분석의 종류: 피어슨, 스피어만, 켄달, 점이연, 이연 상관 계수 일반적인 상관관계 분석은 피어슨 상관관계 분석을 의미 R: 두 변수 간 선형적 관계의 강도 공분산(Covariance)과 상관 계수(Corelation) 수치형 변수 간 상관관계 나타내는 지표 공분산 X변수와 Y변수가 동시에 변하는 정도 X의 편차와 Y의 편차의 곱의 평균 *편차: 변량-평균 방향성만 가짐 결과값이 양수: 양의 선형 관계 결과값이 음수: 음의 선형 관계 표준화작업 필수: 공분산의 크기는 단위의 영향을 받아 일정한 값을 가질 수 없으므로 표준화작업을 통해 척도에 상관없이 계산 가능하도록 함 예를 들어 몸무게 단위 KG 사용..
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) [파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) 다양한 강도, 색상으로 데이터 범위를 시각화 ex. 상관행렬의 히트맵 표시 matplotlib의 Imshow 함수 이용 #heat map import matplotlib.pyplot as plt import numpy as np import seaborn as sns flights = sns.load_dataset('flights') flights = flights.pivot("month","year","passengers") fig, ax = plt.subplots(figsize=(12,6)) im = ax.imshow(flights, cmap='YlGnBu') ax.set_xticklabels(flights.columns, rot..
[파이썬 캐글뽀개기] Matplotlib - 박스 플롯(BOX PLOT) [파이썬 캐글뽀개기] 박스 플롯(BOX PLOT) 범주형 데이터를 기준으로 수치형 데이터의 분포 파악에 적합 Outlier: 이상치 Max: 전체 데이터 중 최댓값 Upper Quartile(Q1): 제1사분위수. 전체 데이터의 25%지점 Median: 전체 데이터 중 50%에 해당하는 중앙값 Lower Quartile(Q3): 제3사분위수. 전체 데이터의 75%이내값 Min: 최솟값 IQR: InterQuartile Range의 약어. Q3 - Q1으로 계산.
[파이썬 캐글 뽀개기] Matplotlib 라이브러리 파이썬 시각화 이론편 Matplotlib 라이브러리 파이썬 데이터 시각화의 기본 뼈대 복잡하고 다루기 어려움 >>> seaborn 라이브러리 등장 matplotlib 그래프를 구현하는 방법 pyplot api matplotlib.pyplot 모듈의 함수들을 각각 불러와서 구현. 사용 편리 객체 지향 api matplotlib에 구현된 객체 지향 라이브러리를 직접 활용. 그래프의 각 구성요소 다양하게 제어하고 싶을 때. 사용하기 복잡 pyplot API + 객체 지향 API 실전에서 자주 사용 기존 객체지향API와 다르게 PLT클래스 활용 Seaborn 라이브러리 그림 그리기 easy 통계 결과를 간편하고 아름답게 파이썬 시각화 그래프의 기본 용어 Figure 전체 그래프 그림 Axes 그래프가 그려지는 ..
[파이썬 캐글뽀개기] 파이썬 시각화 이론편 파이썬 시각화 이론편 Matplotlib 라이브러리 파이썬 데이터 시각화의 기본 뼈대 복잡하고 다루기 어려움 >>> seaborn 라이브러리 등장 matplotlib 그래프를 구현하는 방법 pyplot api matplotlib.pyplot 모듈의 함수들을 각각 불러와서 구현. 사용 편리 객체 지향 api matplotlib에 구현된 객체 지향 라이브러리를 직접 활용. 그래프의 각 구성요소 다양하게 제어하고 싶을 때. Seaborn 라이브러리 그림 그리기 easy 통계 결과를 간편하고 아름답게 파이썬 시각화 그래프의 기본 용어 Figure 전체 그래프 그림 Axes 그래프가 그려지는 figure의 하위 섹션 title, x-label, y-label 등의 값 통제 하나의 figure은 여러개의 axes를..
[파이썬으로 캐글뽀개기] pandas와 데이터 전처리 Pandas 라이브러리 파이썬 데이터 처리에서 제일 많이 이용 데이터 전처리 DataFrame In [2]: import pandas as pd In [3]: lemonade = pd.read_csv('Lemonade2016.csv') lemonade.info() RangeIndex: 32 entries, 0 to 31 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 31 non-null object 1 Location 32 non-null object 2 Lemon 32 non-null int64 3 Orange 32 non-null int64 4 Temperature 3..
[파이썬 캐글뽀개기] Numpy Numpy 고성능 수치 계산을 위해 제작된 파이썬 라이브러리 머신러닝, 딥러닝 알고리즘의 다차원 배열 계산에 효과적 대량 데이터 이용시 빠른 계산 가능 ★중요★ ndarray In [1]: import numpy as np In [2]: temp = np.array([1,2,3]) print(type(temp)) In [3]: data1 = [1,2,3] data1 Out[3]: [1, 2, 3] In [4]: data2 = [1,1,2,2,3,4] data2 Out[4]: [1, 1, 2, 2, 3, 4] In [6]: #shpae로 배열 크기 확인 my_array1 = np.array(data1) print(my_array1) print(my_array1.shape) [1 2 3] (3,) In [7..
[파이썬으로 캐글뽀개기] 튜플과 딕셔너리, 집합(set) 튜플(tuple) 한번 선언시 값을 변경할 수 없음 1개의 요소를 갖는 튜플은 끝에 , 붙여야 함 객체 선언시 괄호 생략 가능 tuple = (0) >>type: int tuple = (0,) >>type: tuple tuple = 0,1,2 print: (0,1,2) type: tuple 딕셔너리(dictionary) key:value형태 딕셔너리 내 key값만 모아서 dict_keys 객체 반환, a.keys() 딕셔너리 내 value만 추출, a.values() key:value를 투플로 만들어서 반환, a.items() dict_items([(key, value), (key,value)...]) key값에 대응하는 value 반환, a.get("key이름") 존재하지 않는 key이름 입력시 non..

반응형