본문 바로가기

반응형

AI Theory

(82)
[파이썬으로 캐글뽀개기] 캐글에서 사용되는 머신러닝 알고리즘 지도학습과 비지도 학습 지도학습(Supervised learning) train data에 target, label(레이블)이라는 정답이 포함됨 분류(Classification) 지도 학습에 속하는 기계 학습 모델: 선형 회귀(Linear Regression) 로지스틱 회귀 SVM(Support Vector Machine) 의사결정나무 랜덤 포레스트 k-NN(k-Nearest Neighbor) 신경망(Neural Network) 비지도학습 훈련 데이터에 target이나 label 정보 없음 따라서 훈련 데이터에 아무런 가이드라인이 없으므로 머신러닝 모델이 스스로 학습해야함 군집화: 전체 데이터를 몇개의 작은 군집으로 나누는 것 k-평균 계층 군집 분석(Hierarchical cluster Analysis..
[파이썬 캐글뽀개기] 상관관계 히트 맵 [파이썬 캐글뽀개기] 상관관계 히트 맵 상간관계 분석 두 개 이상 변수 간 상호 관련성 판단 상관 관계 분석의 종류: 피어슨, 스피어만, 켄달, 점이연, 이연 상관 계수 일반적인 상관관계 분석은 피어슨 상관관계 분석을 의미 R: 두 변수 간 선형적 관계의 강도 공분산(Covariance)과 상관 계수(Corelation) 수치형 변수 간 상관관계 나타내는 지표 공분산 X변수와 Y변수가 동시에 변하는 정도 X의 편차와 Y의 편차의 곱의 평균 *편차: 변량-평균 방향성만 가짐 결과값이 양수: 양의 선형 관계 결과값이 음수: 음의 선형 관계 표준화작업 필수: 공분산의 크기는 단위의 영향을 받아 일정한 값을 가질 수 없으므로 표준화작업을 통해 척도에 상관없이 계산 가능하도록 함 예를 들어 몸무게 단위 KG 사용..
[파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) [파이썬 캐글뽀개기] Matplotlib - 히트 맵(Heat Map) 다양한 강도, 색상으로 데이터 범위를 시각화 ex. 상관행렬의 히트맵 표시 matplotlib의 Imshow 함수 이용 #heat map import matplotlib.pyplot as plt import numpy as np import seaborn as sns flights = sns.load_dataset('flights') flights = flights.pivot("month","year","passengers") fig, ax = plt.subplots(figsize=(12,6)) im = ax.imshow(flights, cmap='YlGnBu') ax.set_xticklabels(flights.columns, rot..
[파이썬 캐글뽀개기] Matplotlib - 박스 플롯(BOX PLOT) [파이썬 캐글뽀개기] 박스 플롯(BOX PLOT) 범주형 데이터를 기준으로 수치형 데이터의 분포 파악에 적합 Outlier: 이상치 Max: 전체 데이터 중 최댓값 Upper Quartile(Q1): 제1사분위수. 전체 데이터의 25%지점 Median: 전체 데이터 중 50%에 해당하는 중앙값 Lower Quartile(Q3): 제3사분위수. 전체 데이터의 75%이내값 Min: 최솟값 IQR: InterQuartile Range의 약어. Q3 - Q1으로 계산.
[파이썬 캐글 뽀개기] Matplotlib 라이브러리 파이썬 시각화 이론편 Matplotlib 라이브러리 파이썬 데이터 시각화의 기본 뼈대 복잡하고 다루기 어려움 >>> seaborn 라이브러리 등장 matplotlib 그래프를 구현하는 방법 pyplot api matplotlib.pyplot 모듈의 함수들을 각각 불러와서 구현. 사용 편리 객체 지향 api matplotlib에 구현된 객체 지향 라이브러리를 직접 활용. 그래프의 각 구성요소 다양하게 제어하고 싶을 때. 사용하기 복잡 pyplot API + 객체 지향 API 실전에서 자주 사용 기존 객체지향API와 다르게 PLT클래스 활용 Seaborn 라이브러리 그림 그리기 easy 통계 결과를 간편하고 아름답게 파이썬 시각화 그래프의 기본 용어 Figure 전체 그래프 그림 Axes 그래프가 그려지는 ..
[파이썬 캐글뽀개기] 파이썬 시각화 이론편 파이썬 시각화 이론편 Matplotlib 라이브러리 파이썬 데이터 시각화의 기본 뼈대 복잡하고 다루기 어려움 >>> seaborn 라이브러리 등장 matplotlib 그래프를 구현하는 방법 pyplot api matplotlib.pyplot 모듈의 함수들을 각각 불러와서 구현. 사용 편리 객체 지향 api matplotlib에 구현된 객체 지향 라이브러리를 직접 활용. 그래프의 각 구성요소 다양하게 제어하고 싶을 때. Seaborn 라이브러리 그림 그리기 easy 통계 결과를 간편하고 아름답게 파이썬 시각화 그래프의 기본 용어 Figure 전체 그래프 그림 Axes 그래프가 그려지는 figure의 하위 섹션 title, x-label, y-label 등의 값 통제 하나의 figure은 여러개의 axes를..
[파이썬으로 캐글뽀개기] pandas와 데이터 전처리 Pandas 라이브러리 파이썬 데이터 처리에서 제일 많이 이용 데이터 전처리 DataFrame In [2]: import pandas as pd In [3]: lemonade = pd.read_csv('Lemonade2016.csv') lemonade.info() RangeIndex: 32 entries, 0 to 31 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 31 non-null object 1 Location 32 non-null object 2 Lemon 32 non-null int64 3 Orange 32 non-null int64 4 Temperature 3..
[파이썬 캐글뽀개기] Numpy Numpy 고성능 수치 계산을 위해 제작된 파이썬 라이브러리 머신러닝, 딥러닝 알고리즘의 다차원 배열 계산에 효과적 대량 데이터 이용시 빠른 계산 가능 ★중요★ ndarray In [1]: import numpy as np In [2]: temp = np.array([1,2,3]) print(type(temp)) In [3]: data1 = [1,2,3] data1 Out[3]: [1, 2, 3] In [4]: data2 = [1,1,2,2,3,4] data2 Out[4]: [1, 1, 2, 2, 3, 4] In [6]: #shpae로 배열 크기 확인 my_array1 = np.array(data1) print(my_array1) print(my_array1.shape) [1 2 3] (3,) In [7..

반응형