본문 바로가기

반응형

AI Theory/key concept of AI

(53)
결정 트리와 LightGBM LightGBM decision tree 계의 대표적인 알고리즘 캐글 경진대회에서 자주 사용 결정트리(decision tree) 역치 조건에 따라 데이터 분기를 반복하는 것 회귀 및 분류에 사용 조건을 반복하여 최종적으로 각 조건의 조합에 따른 데이터를 분류 역치조건: 원래 데이터가 어떤 조건에 따라 다른 성질을 갖는 두 종류의 데이터로 잘 나뉘었는가로 결정 출력까지의 과정 파악이 쉬움 얻은 모델을 쉽게 응용 가능 이상치(극단적인 값)에 약하고 분기가 한쪽으로 치우쳐지면 이후의 분기의 정확도가 나빠짐 랜덤 포레스트(앙상블 기법) 결정 트리 여러개를 만들어 합치는 방법 LightGBM 병렬 앙상블이 아니라 결정 트리를 순서대로 갱신해 나가는 방법(Gradient boosting tree)의 일종 캐글에서 ..
데이터 분석의 절차 데이터 분석의 절차 1. 목적, 평가지표 결정 무엇을 위해, 어떤 데이터를 사용하여, 어떤 분석을 하고 그 결과를 어떤 지표로 평가할지 2. 데이터 수집 내부와 외부 환경에서 데이터 수집 3. 데이터 가공 및 전처리 수집한 데이터를 통합하여 분석에 적합한 포멧으로 가공하고 결손치를 처리 4. 데이터 탐색 및 가시화 데이터 분포, 경향, 개요 등을 가시화하여 확인하고 가설, 의문, 과제 등을 정리 5. 특징 값 추출 머신 러닝 모델에 입력할 수 있는 다양한 특징 값(각 값의 평균값 등)을 작성 6. 모델 작성, 예측 및 분류 하이퍼파라미터(모델의 설정값)을 조정하며 예측 정밀도가 높은 모델 작성 다른 머신 러닝 모델을 여러개 조합하기도 함 7. 모델 검증 얻은 모델을 테스트하며 효과 검증 데이터 분석의 주..
모두의 데이터분석 with 파이썬 1장 연습문제 직접 만든 연습문제로 교재를 참고하여 만들었습니다.
데이터 프레임 데이터 프레임 데이터를 다룰 때 가장 많이 사용하는 데이터 형태 행과 열로 구성된 사각형 모양의 표 열(컬럼, 변수(variable)) 속성 행(row, case) 각 사람의 정보 데이터가 크다 = 행 또는 열이 많다 데이터 프레임 만들기 ##pandas 데이터를 원하는 형태로 가공할 때 사용 import pandas as pd df = pd.DataFrame({'name':['김지훈', '이유진', '박동현', '김민지'], 'english':[90,70,60,40], 'math':[50,40,30,90]}) df
03. 데이터 분석의 기본 개념 변수(variable) 다양한 속성을 지닌 하나의 값 데이터는 변수들의 덩어리로, 여러 변수가 모여 데이터가 됨 변수는 데이터 분석의 대상 상수(constant) 분석 대상 아님 변수명을 정하는 규칙 반드시 문자로 시작 문자, 숫자, 언더바를 조합해 알아보기 쉽고 기억하기 쉬운 단어로 여러 값으로 구성된 변수 만들기 var1 = [1,2,3] var2 = [4,5,6] var1+var2 ##[1,2,3,4,5,6] str2 = 'text' str3 = 'hello' str2+str3 ## 'texthello' str2 + " " + str3 ##'text hello' 함수(function) x = [1,2,3] sum(x) ## 6 max(x) ## 3 min(x) ## 1 패키지 다양한 함수가 들어있음..

반응형