본문 바로가기

AI Theory/key concept of AI

가중치 초기화와 배치 정규화

가중치 초기화와 배치 정규화

가중치 초기화

신경망 성능에 큰 영향을 줌

가중치 값이 치우치면 활성화 함수의 결과도 치우쳐서 표현할 수 있는 신경망 수가 적어짐

모델의 활성화 값이 골고루 분포되도록 하는 것이 중요

선형 함수 가중치 초기화

제로 초기화

  • 가중치를 0으로 초기화
  • 각 레이어의 가중치 분포가 중앙에만 몰려있어 학습 불가능

정규분포 초기화

  • 제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음

균일분포 초기화

  • 제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음
  • 활성화 값이 균일하지 않아 역전파로 전해지는 기울기 값이 사라질 수 있음

xavier 정규분포 초기화

  • 은닉층 노드 수가 n이면 표준편차는 1/sqrt(n)인 분포로 초기화
  • 비교적 분포도 고르고 레이어마다 표현이 잘 되 더 많은 가중치가 역전파에 전달 가능

xavier 균일분포 초기화

  • xavier 정규분포 초기화와 동일

He 정규분포 초기화

  • 표준편차가 sqrt(2/n)인 분포를 가지도록 초기화
  • 활성화값 분포가 균일하게 분포되어 있음

비선형 함수 가중치 초기화

제로 초기화

  • 레이어의 가중치 분포가 0에만 몰려있음
  • 활성화 함수로 relu를 사용했기 때문

정규분포 초기화, 균일분포 초기화

  • 제로 초기화보다는 분포가 퍼져있음
  • 그러나 여전히 hidden layer1을 제외하고는 분포가 0에 치우쳐져 있음

xavier 졍규분포/균일분포 초기화

  • relu 특성상 0인 값이 많지만, 전체 레이어에 어느정도 분포가 퍼져있음

He 정규분포/균일분포 초기화

  • 일반적으로 xavier보다 비선형 함수에 더 적합
  • 분포가 골고루 퍼져있음

배치 정규화

  • 모델에 입력되는 샘플들을 균일하게끔  미니배치 단위로 데이터의 평균이 0, 표준편차 1로 정규화 수행하는 것
  • 가중치의 활성화값이 적당히 퍼지게끔 강제로 적용
  • 학습이 빠르고 새로운 데이터에 대해 일반화가 잘 되도록 도와줌
  • 초기값에 크게 의존하지 않아도 되고, 과대적합 방지
  • 데이터 전처리 단계에서 들어가도 되지만 확실하게 확인하기 위해 Dense 레이어 이후, 활성화함수 이전에 활용