본문 바로가기

AI Theory/key concept of AI

데이터 퀼리티 높이기

데이터 퀼리티 높이기

데이터 퀼리티를 높이기 위해서는 아래의 4가지 요소들을 모두 고려하여야 한다.

 

1. 완결성

필수 항목인 데이터가 모두 채워져 있는 것

결측값이 없어야 한다.

 

2. 유일성

동일한 데이터가 불필요하게 중복되어 있으면 안됨

중복값 제거하여 유일성 유지

df.drop_duplicates()

3. 통일성

데이터가 동일한 형식으로 저장되어 있어야 함

데이터타입, 단위, 포멧이 동일해야함

 

4. 정확성

데이터는 정확해야 함

데이터 수집시 특히 주의

이상치 확인

 

이상치

절대적 기준 없음

box plot에서 IQR(25%~75% 사이의 길이) +- 1.5 * IQR

삭제하거나 사용하거나 상황에 맞게 판단