AI Theory/key concept of AI
데이터 퀼리티 높이기
서이서
2022. 12. 1. 13:02
데이터 퀼리티 높이기
데이터 퀼리티를 높이기 위해서는 아래의 4가지 요소들을 모두 고려하여야 한다.
1. 완결성
필수 항목인 데이터가 모두 채워져 있는 것
결측값이 없어야 한다.
2. 유일성
동일한 데이터가 불필요하게 중복되어 있으면 안됨
중복값 제거하여 유일성 유지
df.drop_duplicates()
3. 통일성
데이터가 동일한 형식으로 저장되어 있어야 함
데이터타입, 단위, 포멧이 동일해야함
4. 정확성
데이터는 정확해야 함
데이터 수집시 특히 주의
이상치 확인
이상치
절대적 기준 없음
box plot에서 IQR(25%~75% 사이의 길이) +- 1.5 * IQR
삭제하거나 사용하거나 상황에 맞게 판단