가중치 초기화와 배치 정규화
가중치 초기화
신경망 성능에 큰 영향을 줌
가중치 값이 치우치면 활성화 함수의 결과도 치우쳐서 표현할 수 있는 신경망 수가 적어짐
모델의 활성화 값이 골고루 분포되도록 하는 것이 중요
선형 함수 가중치 초기화
제로 초기화
- 가중치를 0으로 초기화
- 각 레이어의 가중치 분포가 중앙에만 몰려있어 학습 불가능
정규분포 초기화
- 제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음
균일분포 초기화
- 제로 초기화보다는 분포가 퍼져있으나 여전히 중앙에 치우쳐 있음
- 활성화 값이 균일하지 않아 역전파로 전해지는 기울기 값이 사라질 수 있음
xavier 정규분포 초기화
- 은닉층 노드 수가 n이면 표준편차는 1/sqrt(n)인 분포로 초기화
- 비교적 분포도 고르고 레이어마다 표현이 잘 되 더 많은 가중치가 역전파에 전달 가능
xavier 균일분포 초기화
- xavier 정규분포 초기화와 동일
He 정규분포 초기화
- 표준편차가 sqrt(2/n)인 분포를 가지도록 초기화
- 활성화값 분포가 균일하게 분포되어 있음
비선형 함수 가중치 초기화
제로 초기화
- 레이어의 가중치 분포가 0에만 몰려있음
- 활성화 함수로 relu를 사용했기 때문
정규분포 초기화, 균일분포 초기화
- 제로 초기화보다는 분포가 퍼져있음
- 그러나 여전히 hidden layer1을 제외하고는 분포가 0에 치우쳐져 있음
xavier 졍규분포/균일분포 초기화
- relu 특성상 0인 값이 많지만, 전체 레이어에 어느정도 분포가 퍼져있음
He 정규분포/균일분포 초기화
- 일반적으로 xavier보다 비선형 함수에 더 적합
- 분포가 골고루 퍼져있음
배치 정규화
- 모델에 입력되는 샘플들을 균일하게끔 미니배치 단위로 데이터의 평균이 0, 표준편차 1로 정규화 수행하는 것
- 가중치의 활성화값이 적당히 퍼지게끔 강제로 적용
- 학습이 빠르고 새로운 데이터에 대해 일반화가 잘 되도록 도와줌
- 초기값에 크게 의존하지 않아도 되고, 과대적합 방지
- 데이터 전처리 단계에서 들어가도 되지만 확실하게 확인하기 위해 Dense 레이어 이후, 활성화함수 이전에 활용
'AI Theory > key concept of AI' 카테고리의 다른 글
[케라스 창시자에게 배우는 딥러닝] ch5 딥러닝 모델의 일반화, 성능 평가 방법 (0) | 2023.08.01 |
---|---|
categorical cross entropy vs sparse cross entropy (0) | 2023.07.31 |
모델 크기 조절과 규제 (0) | 2023.07.25 |
딥러닝 구조와 모델 (0) | 2023.07.24 |
텐서 표현과 연산 (0) | 2023.07.24 |