본문 바로가기

AI Theory/key concept of AI

결정 트리와 LightGBM

LightGBM

  • decision tree 계의 대표적인 알고리즘
  • 캐글 경진대회에서 자주 사용

 

결정트리(decision tree)

  • 역치 조건에 따라 데이터 분기를 반복하는 것
  • 회귀 및 분류에 사용
  • 조건을 반복하여 최종적으로 각 조건의 조합에 따른 데이터를 분류
  • 역치조건: 원래 데이터가 어떤 조건에 따라 다른 성질을 갖는 두 종류의 데이터로 잘 나뉘었는가로 결정
  • 출력까지의 과정 파악이 쉬움
  • 얻은 모델을 쉽게 응용 가능
  • 이상치(극단적인 값)에 약하고 분기가 한쪽으로 치우쳐지면 이후의 분기의 정확도가 나빠짐

 

랜덤 포레스트(앙상블 기법)

결정 트리 여러개를 만들어 합치는 방법

 

LightGBM

병렬 앙상블이 아니라 결정 트리를 순서대로 갱신해 나가는 방법(Gradient boosting tree)의 일종

캐글에서 매우 자주 사용

실행 속도가 다른 기법보다 빠름

결측치, 카테고리 변수가 포함된 상태에서도 모델 학습 가능

 

*참고: (Gradient boosting tree)에는 LightGBM과 XGBoost 2개가 있다.