배치 정규화에 대한 새로운 이해

BN (Batch Normalization)은 2015 년에 [1]에 의해 도입되었습니다. 그 이후로 가장 심층 학습 모델에서 학습 속도 선택과 매개 변수 초기화에 대한 견고성을 향상시키기 위해 사용되었습니다.

BN은 처음 두 모멘트 (평균과 분산)를 정규화하여 각 레이어 입력의 ICS (Internal Covariate Shift)를 줄 이도록 설계되었습니다. 동시에 학습 가능한 매개 변수 쌍 (감마 및 베타)을 사용하여 원하는 활성화 분포를 생성하는 네트워크의 능력에 영향을 미치지 않습니다.

최근 논문 [2]은 정규화 기술을 사용하여 얻은 BN 및 성능 향상에 대한 새로운 시각을 제공합니다. 실험을 기반으로 다음을보고합니다.

  • ICS는 훈련 성과를 잘 예측하지 못합니다
  • BN을 사용하여 얻은 성능 향상은 ICS의 감소로 인한 것이 아닙니다.
  • BN은 최적화 환경에 평활 효과를 제공하여 학습 속도와 같은 하이퍼 파라미터에 대한 모델 견고성을 향상시킵니다.

실험 1

아래의 그림 1 ([2]에서 가져온)은 VGG 네트워크에 대한 세 가지 교육 세트를 보여줍니다. 첫 번째 네트워크는 BN없이 학습되고 두 번째 네트워크는 BN으로 학습됩니다. 마지막으로, 제 3 네트워크는 시변, 0이 아닌 평균 및 비 단위 분산 잡음을 추가함으로써 사용 된 각각의 BN 이후에 분배 불안정성을 주입 받는다. 노이즈는 기본적으로 표준 설정보다 높은 ICS를 유발합니다.

그림 1 [2], 실험 1의 결과

결과는 노이즈를 추가하여 ICS를 늘려도 여전히 성능 향상 (핑크 라인)을 얻는다는 것을 보여줍니다. 이는 ICS 감소가 성능 향상의 원인이되지 않음을 나타냅니다.

실험 2

각 신경망 계층에 대해 ICS는 이전 계층의 매개 변수가 그래디언트 디센트 (gradient descent)를 사용하여 업데이트됨에 따라 각 계층의 입력 변경으로 인한 최적화 문제 자체의 변경을 캡처합니다. 이 '시프트'의 반응으로 각 레이어는 매개 변수를 조정해야하는데, 그래디언트가 사라지거나 폭발하는 경우가 종종 있습니다 [1].

최적화 환경의 변화에 ​​대한이 아이디어는 레이어의 매개 변수 변화에 의해 반영됩니다. 그래디언트의 변화가 크면 최적화 환경의 변화가 더 커집니다. [2]는 모든 이전 레이어 (G ') 이전과 업데이트 후 (G) 각 레이어의 그라디언트 차이를 측정하여이를 캡처합니다. l2 차이의 값이 작을수록 풍경이 비슷하게 유지되므로 더 작은 ICS를 나타냅니다.

그림 2 [2], 실험 2의 결과

[2]는 그림 2에 표시된 두 그래디언트의 l2 차이 (및 코사인 각도)를 표시하여 ICS와 BN 간의 연결을 추가로 조사합니다. 위 그림에서 BN을 사용하는 것이 ICS의 감소를 나타내지 않음을 알 수 있습니다.

그렇다면 배치 정규화는 무엇을합니까?

Deep Neural Network의 최적화 환경은 수많은 평평한 영역과 날카로운 꼬임으로 구성되어 문제가 볼록하지 않습니다. 이러한 영역은 소실 구배 (평평한 영역) 또는 구배 폭발 (예리한 경사)로 이어집니다. 이는 학습 속도 및 파라미터 초기화에 대한 민감도를 높여 최적화를 불안정하게 만듭니다.

[2]는 BN을 사용한 그래디언트의 높은 Lipschitzness를 나타냅니다. 이는 효과적으로 최적화 환경의 높은 부드러움을 의미합니다. 이것은 훈련 단계에서 손실의 기울기를 계산하고 그 기울기 방향을 따라 손실이 어떻게 변하는지를 측정하는 그림 3에서 볼 수 있습니다.

그림 3 [2]

그림 3에서 BN은보다 부드러운 프로파일을 제공합니다. 이로 인해 그래디언트가보다 예측 가능해집니다. 즉, 각 단계에서 그래디언트가 가까운 미래 단계에서 그래디언트가 유사 할 가능성이 높습니다. 이러한 예측 가능성은 안정성을 잃지 않고 구배 방향으로 더 큰 단계를 취할 수 있습니다.

마지막으로, [2]는 BN의 평활화 효과가 네트워크의보다 나은 일반화의 이유 일 수 있다고 결론 지었다. 이것은 BN이 최적화를 평평한 최소 점으로 밀기 때문입니다.

참고 문헌 :
[1] Ioffe S, Szegedy C. 배치 정규화 : 내부 공변량 이동을 줄임으로써 심층 네트워크 훈련을 가속화합니다. arXiv 프리 프린트 arXiv : 1502.03167. 2015 년 2 월 11 일
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. 배치 정규화는 최적화에 어떤 도움을 줍니까? (아니오, 내부 공변량 이동에 관한 것이 아님). arXiv 프리 프린트 arXiv : 1805.11604. 2018 년 5 월 29 일.