본문 바로가기

Kaggle

캐글이란?

캐글은 전세계 각국에서 이용하고 있는 데이터분석 경진대회 플랫폼이다.

전세계 데이터 분석가들이 주어진 과제들을 얼마나 정확하게 예측하는지를 겨루는 것이다.

 

 

캐글은 2020년 12월 기준 15만명의 데이터 분석가들이 이용하고 있다.

캐글 사용자들은 캐글을 통해 온라인상에서 자신들의 의견을 공유하고, 그 결과를 즉시 평가하며 경쟁할 수 있다.

 

캐글에 분석 결과를 업로드하면 정확도를 기준으로 수분 내로 온라인에서 채점이 끝나며 참가자간 순위가 매겨진다.

이 순위는 매일 변동하는 것으로, 순위권에 들기 위해서는 매일 자신의 분석 결과를 향상시켜야 한다.

 

즉, 캐글은 자신의 데이터분석능력을 측정하고 이를 향상시킬 수 있는 이상적인 환경이라고 볼 수 있다.

 

캐글에서는 서로의 능력을 향상시키기 위한 Discussion 코너와 Notebook 코너가 존재한다.

 

  • Discussion 코너는 참가자끼리 자신이 알아낸 것을 공유하고 의견을 나눌 수 있다.
  • Notebook 코너에서는 자신의 코드를 그대로 공유할 수 있으며 이에 대해 코멘트를 달거나 투표를 할 수도 있다.

 

 

메달

캐글에 자신의 예측 결과를 제출하면 이를 다른 사람의 결과와 비교한 순위가 나타난다. 이를 리더보드라고 한다.

 

리더보드

  • 공개 리더보드(public leaderboard): 경진대회 기간 중 표시되는 리더보드
  • 비공개 리더보드(private leaderboard): 경진대회가 끝나고 최종 결과를 보여주는 리더보드

 

리더보드를 경진대회 전후에 따라 두 종류로 나누는 이유는 캐글의 채점방식 때문이다.

경진대회 기간 중 예측 정확도는 전체 데이터의 20%만을 이용하여 도출한 정확도이다.

 

나머지 데이터 80%는 참가자가 확인할 수 없는 비공개 데이터로, 이러한 방식을 통해 참가자들은 어떤 데이터를 적용해도 정확도가 높은 학습 모델을 만드는 것을 목표로 해야 한다.

 

  • shake up: 공개리더보드보다 비공개리더보드의 결과가 더 좋은 경우
  • shake down: 반대로 공개 리더보드에서의 결과가 더 좋은 경우

 

 

비공개 리더보드의 최종 순위에 따라 캐글은 메달을 부여하고, 상금을 부여하기도 한다.

참가자가 1000명 이상인 경우 상위 10%가 브론즈, 상위 5%는 실버, 1~12등은 골드 메달을 받는다.

 

이렇게 받은 경진대회 메달 실적을 기준으로 등급과 종합 순위가 부여된다.

  • 캐글 엑스퍼트(Expert): 브론즈 이상의 메달 2개
  • 캐글 마스터(Master): 골드메달 1개와 실버메달 2개 이상
  • 캐글 그랜드마스터(Grand master): 골드 메달 5개 이상과 솔로 골드 메달(팀원없이 혼자 얻은 골드메달)

 

이외에도 데이터셋 공개에 따른 다른 사용자들의 투표를 통해서도 메달이 결정된다. 

 

캐글 경진대회

대회에 따라 다르긴 하지만 💎상금💎이 걸린 대회가 있다.

 

경진대회 선택 > 참가조건 확인 > 데이터 분석 > 예측 결과 제출 > 최종 예측 값 선택

예측 결과 제출 이후에는 discussion/notebook을 확인, 데이터분석, 예측결과 제출을 반복한다.

여러번 제출한 예측 결과 중 최종 예측 값을 선택할 수 있다.(보통 2개)

 

현재 진행중인 space titanic 대회의 리더보드. Entries가 제출횟수.

 

경진대회의 종류

  • 예측 경진대회
  • 코드 경진대회
  • 최적화 경진대회
  • 시뮬레이션 경진대회