(2023.03.04)
Semantic Segmentation 논문 검토 2부
– 학위 논문 제목: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation (2015)
– https://arxiv.org/pdf/1511.00561v3.pdf
모델 아키텍처

SegNet은 인코더-디코더 구조입니다.
– 인코더는 vgg16에서 13개의 conv 레이어를 가져왔습니다. (해상도가 감소하고 매개변수가 증가함에 따라 완전히 연결된 레이어를 제거했습니다.)
– 해당 디코더도 13개의 레이어로 구성되어 있습니다.
– 마지막 디코더의 출력은 다중 클래스 softmax 분류기를 거치고 각 픽셀의 클래스 확률로부터 최종 분할 맵 결과가 나옵니다.
SegNet의 업샘플링 방법은 아래 그림과 같습니다.
인코더에서 2×2 max pooling을 할 때 max pooling index를 저장하고, decoder에서 upsampling을 할 때 적절한 위치에 받아서 upsampling한다.

저자는 SegNet을 DeconvNet & UNet과 비교했습니다.
– 3개 모델 모두 업샘플링 과정이 다름
SegNet은 매개변수가 적고 메모리를 덜 사용하는 모델입니다.
이 두 가지가 주요 비교 대상인 것 같습니다.
실험



