본문 바로가기

AI Theory/key concept of AI

가중치 초기화와 배치 정규화

서이서 2023. 7. 25. 13:52

가중치 초기화와 배치 정규화

가중치 초기화

신경망 성능에 큰 영향을 줌

가중치 값이 치우치면 활성화 함수의 결과도 치우쳐서 표현할 수 있는 신경망 수가 적어짐

모델의 활성화 값이 골고루 분포되도록 하는 것이 중요

선형 함수 가중치 초기화

제로 초기화

가중치를 0으로 초기화
각 레이어의 가중치 분포가 중앙에만 몰려있어 학습 불가능

정규분포 초기화

제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음

균일분포 초기화

제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음
활성화 값이 균일하지 않아 역전파로 전해지는 기울기 값이 사라질 수 있음

xavier 정규분포 초기화

은닉층 노드 수가 n이면 표준편차는 1/sqrt(n)인 분포로 초기화
비교적 분포도 고르고 레이어마다 표현이 잘 되 더 많은 가중치가 역전파에 전달 가능

xavier 균일분포 초기화

xavier 정규분포 초기화와 동일

He 정규분포 초기화

표준편차가 sqrt(2/n)인 분포를 가지도록 초기화
활성화값 분포가 균일하게 분포되어 있음

비선형 함수 가중치 초기화

제로 초기화

레이어의 가중치 분포가 0에만 몰려있음
활성화 함수로 relu를 사용했기 때문

정규분포 초기화, 균일분포 초기화

제로 초기화보다는 분포가 퍼져있음
그러나 여전히 hidden layer1을 제외하고는 분포가 0에 치우쳐져 있음

xavier 졍규분포/균일분포 초기화

relu 특성상 0인 값이 많지만, 전체 레이어에 어느정도 분포가 퍼져있음

He 정규분포/균일분포 초기화

일반적으로 xavier보다 비선형 함수에 더 적합
분포가 골고루 퍼져있음

배치 정규화

모델에 입력되는 샘플들을 균일하게끔 미니배치 단위로 데이터의 평균이 0, 표준편차 1로 정규화 수행하는 것
가중치의 활성화값이 적당히 퍼지게끔 강제로 적용
학습이 빠르고 새로운 데이터에 대해 일반화가 잘 되도록 도와줌
초기값에 크게 의존하지 않아도 되고, 과대적합 방지
데이터 전처리 단계에서 들어가도 되지만 확실하게 확인하기 위해 Dense 레이어 이후, 활성화함수 이전에 활용

'AI Theory > key concept of AI' 카테고리의 다른 글

[케라스 창시자에게 배우는 딥러닝] ch5 딥러닝 모델의 일반화, 성능 평가 방법 (0)	2023.08.01
categorical cross entropy vs sparse cross entropy (0)	2023.07.31
모델 크기 조절과 규제 (0)	2023.07.25
딥러닝 구조와 모델 (0)	2023.07.24
텐서 표현과 연산 (0)	2023.07.24

티스토리툴바