분류 평가지표
- Confusion Matrix : 모델의 예측값 (Prediction)과 실제값을 비교하기 위한 표.
- TP, TN: 실제값을 맞게 예측한 것
- FP, FN: 실제값과 다르게 예측한 것
- Accuracy (정확도) :
- (TP + TN) / (TP + TN + FP)
- 전체 데이터 중 모델이 바르게 분류한 비율
- 불균형한 데이터 (imbalanced data)에 사용하기엔 부적절
- 100명 중 1명의 암환자
- 100명 모두 암이 없다고 예측하면 정확도는 99%지만 실제 암환자에 대해서 예측하지 못함
- Precision (정밀도):
- TP / (TP + FN)
- 실제 값이 Negative인 데이터를 Positive로 판단하면 안 될 때 사용할 수 있는 지표
- 예시: 스팸 메일 분류
- Recall (재현율):
- TP / (TP + FN)
- 실제 값이 Positive인 데이터를 Negative로 판단하면 안 될 때 사용할 수 있는 지표
- 예시: 악성 종양 판단
- ROC (Receiver Operating Characteristic):
- 정답이 1인 케이스에 대해 1로 잘 예측하는 비율 (TPR)을 Y축
- 정답이 1인 케이스에 대해 잘못 예측한 비율 (FPR)을 X축
- 모델의 임계값 (Cutoff Value)를 변경시켜가며 그린 곡선을 나타냄
'AI Theory > key concept of AI' 카테고리의 다른 글
파이썬 더 잘 알기 (0) | 2023.06.26 |
---|---|
[boostcourse beyond ai] 딥러닝의 역사 (0) | 2023.05.28 |
데이터 퀼리티 높이기 (0) | 2022.12.01 |
데이터분석기초 (0) | 2022.09.14 |
깃헙 csv 파일 Colab/Kaggle/주피터에서 사용하는 법 (0) | 2022.09.09 |