본문 바로가기

공부/AI

[논문리뷰] ImageNet Classification with Deep Convolutional Neural Networks (2012)

 

📚 [비전] AlexNet 논문 리뷰 및 요약 

 

 

📌 개요

 

✔ AlexNet 논문 키포인트 

1. ILSVRC 대회에서 CNN 모델이 통용되는 계기 

2. ReLU Non-linearity 사용 

3. 병렬 GPU 사용 

4. Overlapping Pooling 기법 사용 

5. Overfitting 방지를 위한 기법 : Data Augmentation, Dropout 사용 

 

 

📌 Vision 분야에서 CNN 사용

 

CNN의 필요성 

1. 이전보다 large dataset을 사용할 수 있음에 따라 large learning capacity를 가진 모델이 필요 : CNN은 depth와 breadth 조절을 통해 capacity를 조절 가능

2. CNN은 이미지 데이터의 특성(stationarity of statistics, locality of pixel dependencies)에 대해 올바른 가정 하에 작동할 수 있는 모델.

stationarity of statistics와 locality of pixel dependencies에 대하여 더 자세한 설명은 이 링크 참고.

 

 

ILSVRC 2012 대회에서 SOTA 달성

AlexNet은 ILSVRC 2012 대회에서 84.7%의 accuracy 달성. 당시 2등이 73.8%인 것과 비교했을 때 매우 큰 격차. 

 

 

📌 AlexNet의 구조

 

 

AlexNet의 구조 

AlexNet은 8개 Layer 구조이며 5개의 Convolutional Layer와 3개의 Fully Connected Layer로 구성되어 있다.

 

 

AlexNet의 각 Layer에 대한 설명 및 parameter 개수

 

 

📌 AlexNet의 새로운 기법 

 

 

ReLU Non-linearity 사용

기존에는 activation function으로 tanh과 sigmoid가 주로 사용되었는데 AlexNet에서는 ReLU 함수를 사용하여 학습 속도를 향상하였음. 아래 그래프를 보면 CIFAR-10 데이터로 실험한 결과 ReLU(solid line)가 tanh(dashed line)보다 25% training error rate를 달성하기까지 6배 속도가 향상됨. 

 

 

병렬 GPU 사용 

두개의 GPU를 사용하여 top-1 error rates 1.7% 감소, top-5 error rates 1.2% 감소시켰으며, 학습 속도도 향상되었음. 

 

 

Local Response Normalization

lateral inhibition(측면 억제)를 위해 도입된 기법으로, 이후에 VGG 논문인 Very Deep Convolutional Networks for Large-Scale Image Recognition (2014)에서 LRN 기법은 큰 효과가 없음을 검증하였음. 최근에는 LRN 기법은 거의 사용되지 않고 있으며 Batch Normalization 기법이 주로 사용.

 

 

Overlapping Pooling 기법 사용 

기존에는 stride = filter size 여서 filter가 이동할 때 overlapping되는 부분이 없었지만, 이 논문에서는 stride < filter size가 되도록 하여 filter가 이동할 때 overlapping되는 부분이 있도록 하여 overfitting 가능성 줄이고 Top-1 error rates 0.4% 감소, Top-5 error rates 0.3% 감소시킴.

 

 

📌 AlexNet의 Overfitting 방지 기법

 

 

Data Augmentation

label-preserving transformations를 통해 이미지 데이터를 증강하여 오버피팅을 방지함. 

 

 

Dropout

training 시에 0.5의 확률로 hidden neuron의 출력값을 0으로 만드는 dropout 기법 적용하여 오버피팅 방지함. 

 

 

 

 


논문 링크 : https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

반응형