본문 바로가기

Kaggle

캐글 구글 코랩에서 사용하기

 

캐글 구글 colab에서 사용하기!

kaggle competitions의 dataset을 kaggle API를 이용해 Colab에 다운로드 받고 바로 사용하는 방법!

 

0. kaggle 사이트에서 kaggle.json 파일 다운로드 하기

 

캐글 사이트의 Account 페이지로 이동,

아래쪽 API 항목에서 Create new API Token을 눌러주세요.

 

kaggle.json 파일이 다운로드됩니다.

kaggle API 다운로드 받을 수 있는 account 페이지
kaggle account 페이지

 

 

1. 코랩에 캐글api 설치하기

!pip install kaggle

!pip install kaggle
캐글 api 설치
전 이미 설치된 모습입니당

 

 

2. kaggle.json 파일 불러오기

#kaggle.json 파일 불러오기
from google.colab import files
uploaded = files.upload()

for fn in uploaded.keys():
    print('user uploaded file"{name}"with length {length} bytes'.format(name=fn, length=len(uploaded[fn])))

해당 셀을 실행하면 다움과 같이 파일을 선택할 수 있습니다.

kaggle.json 파일 입력
파일선택을 누르고 kaggle.json 파일 선택

미리 다운받았던 kaggle.json 파일을 선택해주세요.

 

 

3. kaggle 폴더 생성하기

# kaggle 폴더 생성
!mkdir -p !/.kaggle/

 

4. kaggle.json 파일을 새로 생성한 kaggle 폴더에 붙여넣기

# kaggle.json 파일 복사
!cp kaggle.json ~/.kaggle/kaggle.json

 

 

5.파일 권한 부여

#파일 권한 부여
!chmod 600 /root/.kaggle/kaggle.json

chmod 600은 소유자에게만 읽기 쓰기 권한을 부여하는 명령어입니다!

 

 

 

6. 캐글에서 진행중인 대회 리스트 불러오기

#캐글의 컴페티션 리스트 불러오기
!kaggle competitions list
반응형

현재 진행중인 캐글 컴페티션 리스트
현재 진행중인 컴페티션 리스트

 

7. 원하는 대회 데이터셋 다운로드하기

#원하는 대회 데이터셋 다운로드
!kaggle competitions download -c house-prices-advanced-regression-techniques

6에서 확인한 대회 리스트 중 원하는 대회의 ref를 입력해주세요.

저는 house-prices-advanced-regression-techniques 대회의 데이터셋을 다운로드 받았습니당

 

이때 주의할 점은 kaggle에서 참여하기를 눌렀던 대회의 데이터셋만 다운로드가 가능하다는 점!

kaggle에서 참여하기 신청을 안했다면 대회참여를 누른 뒤에 셀을 실행해주세요

 

 

Kaggle Competitions

 

www.kaggle.com

 

8. 다운로드한 데이터 형태 확인

ls 명령어 결과

!ls 명령어로 7에서 다운받은 데이터셋을 확인해보았습니다.

위 사진의 경우 한번 unzip한 상태여서 csv 파일이 있는데, 처음 확인했을때는 zip 파일만 존재하더라고요?

이 경우에는 압축 풀기 과정이 필요합니다.

 

9. zip 형태일 경우 압축 풀기

#압축풀기
! unzip house-prices-advanced-regression-techniques.zip

! unzip 파일명.zip 명령어를 실행하면 파일 압축이 풀립니다.

 

그러믄 끝! 원래 하던거 하심됩니다.

 

10. 데이터를 변수에 저장

#드디어 시작!
import pandas as pd
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
print('data loading is done')