본문 바로가기

반응형

AI Theory

(81)
[파이썬으로 캐글뽀개기] 데이터분석에 유용한 리스트 관련 메소드 리스트에 여러개의 요소 한번에 추가하기, extend() a = [1,2,3] a.extend([4,5,6]) a >> [1,2,3,4,5,6] 리스트 원하는 위치에 요소 삽입하기, insert() a = [1,2,3] a.insert(1,100) a >> [1,100,2,3] 슬라이싱을 이용해 리스트 중간에 요소 삽입하기 [시작:끝]이 동일하면 삽입 [시작:끝]이 다르면 해당 구간 잘라내고 덮어쓰기 a = [0,1,2,3] a[2:2] = [100,200] a >> [0,1,100,200,2,3] b = [0,1,2,3] b[1:2] = [100,200,300,400] b >>[0,100,200,300,400,2,3] c=[0,1,2,3] c[1:5] = [100] c >>[0,100] 리스트 요소 제..
웹 크롤링이란? 목차 목차 웹 크롤링 웹 크롤러를 이용해 웹 사이트에서 원하는 정보만 수집하는 것 단시간에 많은 정보 수집 가능, 단순 반복 작업 자동화 웹 스크래핑 크롤링이 웹 사이트에서 데이터 전체를 가져오는 반면, 스크래핑은 원하는 정보만을 일부 추출한다는 의미가 강하다 실제로 크롤링 한다는 게 웹 스크래핑을 의미하는 경우가 많음 웹 크롤링 과정 1. 정보 원하는 웹 사이트에 접속해 웹 페이지 확인 2. F12를 눌러 내가 원하는 정보의 위치 확인, 분석 3. 파이썬으로 접속한 웹 페이지의 HTML 코드 불러옴 4. 불러온 데이터에서 원하는 정보만 가공해 추출 5. 추출한 정보를 CSV, 데이터베이스 등 다양한 형태로 저장 주요 용어 리소스: 사용자가 요청하는 이미지, 데이터 등 클라이언트: 리소스, 서비스 요청 ..
예측 정확도와 하이퍼파라미터 목차 예측정확도 모든 예측 중 정확하게 예측한 비율 #진양성(True positive, TP): 실제도 예측도 1 #위음성(False Negative, FN): 실제 1 예측 0 #위양성(False Positive, FP): 실제 0 예측 1 #진음성(True Negative, TN): 실제 0 예측 0 #정확도: (TP+TN)/(TP+TN+FP+FN) from sklearn.matrics import accuracy_score accuracy_score(y_valid, np.round(y_pred)) 하이퍼파라미터 모델링시 사용자가 직접 세팅해주는 값 하이퍼파라미터 기본값 의미 learning_rate 0.1 학습 속도 max_bin 255 분기 한개에 들어가는 데이터 최댓값 작으면 잘게 나누어 학습 ..
과적합과 과소적합 목차 머신러닝은 목적 변수의 예측을 위해 여러 설명 변수를 이용해 모델을 만들고 테스트 데이터에 적용하는 일련의 과정을 거침. 그러나 테스트 데이터에는 목적 변수가 없음. 따라서 예측의 정확도를 파악 불가 학습 데이터는 학습에 사용된 것이므로 또한 예측의 정확도를 측정하는데 사용하는 것이 부적절 과적합(overfitting) 학습 데이터를 너무 과하게 학습하여 학습 데이터에만 지나치게 적절한 모델 이미 알고 있는 데이터에만 최적화되어 있을 뿐 미지의 데이터에 대한 정확도는 떨어짐 과소적합(underfitting) 학습이 불충분하게 진행 데이터에 맞는 학습이 충분하지 않아 정확도가 낮음 과적합을 피하기 위해서는 학습 데이터의 일부늘 검증 데이터로 분리하여 이를 이용해 모델을 검증 검증 데이터의 작성법 홀드..
결정 트리와 LightGBM LightGBM decision tree 계의 대표적인 알고리즘 캐글 경진대회에서 자주 사용 결정트리(decision tree) 역치 조건에 따라 데이터 분기를 반복하는 것 회귀 및 분류에 사용 조건을 반복하여 최종적으로 각 조건의 조합에 따른 데이터를 분류 역치조건: 원래 데이터가 어떤 조건에 따라 다른 성질을 갖는 두 종류의 데이터로 잘 나뉘었는가로 결정 출력까지의 과정 파악이 쉬움 얻은 모델을 쉽게 응용 가능 이상치(극단적인 값)에 약하고 분기가 한쪽으로 치우쳐지면 이후의 분기의 정확도가 나빠짐 랜덤 포레스트(앙상블 기법) 결정 트리 여러개를 만들어 합치는 방법 LightGBM 병렬 앙상블이 아니라 결정 트리를 순서대로 갱신해 나가는 방법(Gradient boosting tree)의 일종 캐글에서 ..
데이터 분석의 절차 데이터 분석의 절차 1. 목적, 평가지표 결정 무엇을 위해, 어떤 데이터를 사용하여, 어떤 분석을 하고 그 결과를 어떤 지표로 평가할지 2. 데이터 수집 내부와 외부 환경에서 데이터 수집 3. 데이터 가공 및 전처리 수집한 데이터를 통합하여 분석에 적합한 포멧으로 가공하고 결손치를 처리 4. 데이터 탐색 및 가시화 데이터 분포, 경향, 개요 등을 가시화하여 확인하고 가설, 의문, 과제 등을 정리 5. 특징 값 추출 머신 러닝 모델에 입력할 수 있는 다양한 특징 값(각 값의 평균값 등)을 작성 6. 모델 작성, 예측 및 분류 하이퍼파라미터(모델의 설정값)을 조정하며 예측 정밀도가 높은 모델 작성 다른 머신 러닝 모델을 여러개 조합하기도 함 7. 모델 검증 얻은 모델을 테스트하며 효과 검증 데이터 분석의 주..
모두의 데이터분석 with 파이썬 1장 연습문제 직접 만든 연습문제로 교재를 참고하여 만들었습니다.
데이터 프레임 데이터 프레임 데이터를 다룰 때 가장 많이 사용하는 데이터 형태 행과 열로 구성된 사각형 모양의 표 열(컬럼, 변수(variable)) 속성 행(row, case) 각 사람의 정보 데이터가 크다 = 행 또는 열이 많다 데이터 프레임 만들기 ##pandas 데이터를 원하는 형태로 가공할 때 사용 import pandas as pd df = pd.DataFrame({'name':['김지훈', '이유진', '박동현', '김민지'], 'english':[90,70,60,40], 'math':[50,40,30,90]}) df

반응형