데이터 퀼리티 높이기
데이터 퀼리티를 높이기 위해서는 아래의 4가지 요소들을 모두 고려하여야 한다.
1. 완결성
필수 항목인 데이터가 모두 채워져 있는 것
결측값이 없어야 한다.
2. 유일성
동일한 데이터가 불필요하게 중복되어 있으면 안됨
중복값 제거하여 유일성 유지
df.drop_duplicates()
3. 통일성
데이터가 동일한 형식으로 저장되어 있어야 함
데이터타입, 단위, 포멧이 동일해야함
4. 정확성
데이터는 정확해야 함
데이터 수집시 특히 주의
이상치 확인
이상치
절대적 기준 없음
box plot에서 IQR(25%~75% 사이의 길이) +- 1.5 * IQR
삭제하거나 사용하거나 상황에 맞게 판단
'AI Theory > key concept of AI' 카테고리의 다른 글
[boostcourse beyond ai] 딥러닝의 역사 (0) | 2023.05.28 |
---|---|
분류 평가지표 (0) | 2023.05.07 |
데이터분석기초 (0) | 2022.09.14 |
깃헙 csv 파일 Colab/Kaggle/주피터에서 사용하는 법 (0) | 2022.09.09 |
[핸즈온 머신러닝] 머신러닝의 과정 (0) | 2022.08.20 |