데이터 분석의 절차
1. 목적, 평가지표 결정
무엇을 위해, 어떤 데이터를 사용하여, 어떤 분석을 하고 그 결과를 어떤 지표로 평가할지
2. 데이터 수집
내부와 외부 환경에서 데이터 수집
3. 데이터 가공 및 전처리
수집한 데이터를 통합하여 분석에 적합한 포멧으로 가공하고 결손치를 처리
4. 데이터 탐색 및 가시화
데이터 분포, 경향, 개요 등을 가시화하여 확인하고 가설, 의문, 과제 등을 정리
5. 특징 값 추출
머신 러닝 모델에 입력할 수 있는 다양한 특징 값(각 값의 평균값 등)을 작성
6. 모델 작성, 예측 및 분류
하이퍼파라미터(모델의 설정값)을 조정하며 예측 정밀도가 높은 모델 작성
다른 머신 러닝 모델을 여러개 조합하기도 함
7. 모델 검증
얻은 모델을 테스트하며 효과 검증
데이터 분석의 주요 용어
데이버 분석의 목적: 설명 변수를 통해 목적 변수를 예측하는 모델 만들기
목적 변수
데이터 분석시 최종적으로 예측해야 할 값
설명 변수
목적 변수의 원인이 되는 값
학습 데이터(train data) = 목적 변수 + 설명 변수
테스트 데이터 = 설명 변수만 존재
검증 데이터: 머신러닝의 학습에 포함되지 않는 데이터로 머신 러닝 모델의 성능 예측을 위해 사용됨
'AI Theory > key concept of AI' 카테고리의 다른 글
과적합과 과소적합 (0) | 2022.05.30 |
---|---|
결정 트리와 LightGBM (0) | 2022.05.30 |
모두의 데이터분석 with 파이썬 1장 연습문제 (0) | 2022.05.05 |
데이터 프레임 (0) | 2022.05.03 |
03. 데이터 분석의 기본 개념 (0) | 2022.04.30 |