최근, 하드웨어가 발전함에 따라, 깊은 인공 신경망 방법이 발달하였다. 다양한 컴퓨터비전 문제에 인공 신경망 기법이 적용되면서, 컴퓨터 비전의 여러문제의 기법의 성능이 비약적으로 발전했다. 의미론적 영역 분할 문제는 대표적인 컴퓨터비전 문제 중 하나이며, 인공 신경망을 활용하여 의미론적 영역 분할 방법들의 성능이 비약적으로 발전했다. 그러나, 현재까지 인공 신경망을 활용한 의미론적 영역 분할 방법들도 여러 한계점을 가지고 있다. 첫번째로 좋은 성능을 얻기 위해서는 많은 합성곱 층을 이용해 무거운 신경망을 구성하기 때문에 이러한 인공 신경망은 큰 메모리 사용량과 많은 연산량이 필요로 한다. 이러한 영향으로 메모리 크기가 작고, 연산능력이 낮은 모바일 환경에서 적용하기가 힘들다. 두번째로는 좋은 성능을 얻기 위해 일반적으로 지도 학습을 활용한다. 지도학습은 많은 학습 영상과 그에 따른 정답 영상이 필요하다. 특히, 의미론적 영역 분할 문제에 대한 정답 영상을 만들기위해서는 모든 픽셀에 대한 정답을 할당해주어야 하므로, 다른 문제들의 정답 영상보다 더 많은 시간과 비용이 필요한 문제점을 가지고 있다. 본 학위 논문에서는 이 두가지를 해결하기 위한 방법을 제안하여, 의미론적 영역 분할 문제의 정확도 성능을 높이기 위한 방법을 다루고 있다.
첫번째로, 본 학위 논문은 의미론적 영역 분할 기법의 지식 증류법에 대해서 다룬다. 지식 증류법은 성능이 좋지만 메모리 사용량과 연산량이 큰 교사 네트워크의 지식을 성능은 비교적 낮지만 메모리 사용량과 연산량이 적은 학생 네트워크를 학습하는데 도움을 주는 방법이다. 기존의 대부분의 지식 증류법은 영상 구분 문제 기법에 적용되었다. 의미론적 영역 분할에 적용된 방법들도 정확도 성능 향상에 도움을 줬지만, 한계점이 존재했다. 첫째로는 기존 방법들은 공간 연관성만을 활용하여, 특징점의 채널간 연관성을 고려하지 못했다. 두번째로는 교사 네트워크의 잘못된 지식도 전파되었다. 본 학위 논문에서는 이 두 문제점을 보완한 공간과 채널 간의 연관성 모두의 정보를 담은 손실함수와 교사 네트워크의 예측 지도와 정답 영상을 활용하여 교사 네트워크의 잘못된 지식이 전파되는 것을 방지한 손실함수를 제안한다. 본 방법을 의미론적 영역 분할 문제에서 많이 사용되는 Cityscapes 데이터를 이용했을 때, 지식 증류법을 적용하지 않은 학생 신경망의 테스트 데이터 mIoU를 비교했을 때, 7.49%의 정확도 성능 향상을 이루어 냈으며, Camvid 데이터를 이용했을 때는 지식 증류법을 적용하지 않은 학생 신경망의 mIoU보다 7.35% 정확도 성능 향상을 이루어 냈다.
두번째로, 본 학위 논문은 의미론적 영역 분할 기법의 자가 지식 증류법을 통한 정규화 방법에 대해 다룬다. 인공 신경망을 활용하여 의미론적 영역 분할 기법에서 좋은 성능을 얻기 위해서 대부분의 방법들이 많은 학습 영상과 그에 해당되는 정답 영상 데이터를 필요로 한다. 그러나, 정답 영상 데이터를 만드는 것은 많은 시간과 비용이 필요하다. 한정된 학습 영상 데이터만을 활용했을 때 문제가 되는 가장 큰 요인은 학습 영상 데이터에 과적합이 발생하는 것이다. 본 학위 논문에서는 학습 영상 데이터에 과적합이 되는 것을 완화하여 정확도 성능 향상을 이루어 낼 수 있도록 픽셀에 따라 적응적인 라벨 스무딩 기법을 제안한다. 본 방법을 의미론적 영역 분할의 대표적인 데이터인 Cityscapes 데이터를 이용 했을 때, 기존 원-핫과 크로스 엔트로피 손실함수를 적용한 방법에 비해 10%의 학습 데이터만을 활용하여 학습한 테스트 데이터의 mIoU는 0.076%, 30%의 학습 데이터만을 활용했을 때의 mIoU는 1.848%, 50% 학습 데이터를 사용한 mIoU는 1.137%, 100%의 데이터를 사용했을 때 mIoU는 1.063% 정확도 성능 향상을 보였으며, Pascal VOC2012 데이터에서는 10%의 mIoU는 3.592%, 30%의 mIoU는 2.787%, 50%의 mIoU는 0.935%, 100%의 mIoU는 1.042%의 정확도 성능 향상을 이루어 냈다.
Alternative Abstract
Recently, as hardware advances, deeper artificial neural networks have been developed and applied to various computer vision problems, resulting in a dramatic performance improvement in various computer vision problems. Semantic segmentation problem is one of the representative computer vision problems, and it has been significantly improved a performance with the development of artificial neural networks. However, there are several limitations of current neural networks for semantic segmentation. First, to achieve the high performance, a heavy network is constructed using many convolutional layers, which requires a large amount of memory and computations. For this reason, it is difficult to apply a heavy artificial neural network with high performance in a mobile environment with a small memory size and low computing power. Second, to achieve high performance in semantic segmentation, the network uses supervised learning method, which requires a lot of training images and corresponding ground truth label images. However, it is more hard to create label images of semantic segmentation compared with other problems, such as classification and object detection label data, because it is necessary to assign the label to every pixel in semantic segmentation. Therefore, it takes more time and cost to create semantic segmentation label compared with other problems. In this paper, we propose method for improvement of semantic segmentation network using knowledge distillation.
First, we propose a knowledge distillation for semantic segmentation network. Knowledge distillation is a method that helps to improve performance of student network using the knowledge of a teacher network with high performance. A student network has lower performance than a teacher network, but it is a network that can be applied to a mobile environment because of its low memory usage and computational amount. On the other hand, a teacher network gives high performance but it uses a lot of memory and computational amount. Various knowledge distillation methods using teacher-student networks have been proposed but there are several problems of previous methods. First, most of existing method is applied to classification problem. Semantic segmentation and classification problem need difference approaches, because the classification is a problem with one label in one input image, and semantic segmentation is a problem in which there are as many label as the number of pixels in one input image. Therefore, classification and semantic segmentation network have different focusing point. Second, the existing knowledge distillation methods for semantic segmentation do not consider the correlation by channel, and do not prevent the transmission of errors from the teacher network to the student network. In this paper, we propose a knowledge distillation method to solve problems of previous methods. To evaluate our method, we conduct experiments on scene parsing datasets: Cityscapes and Camvid. Our method presents significantly better performance than previous methods. Our method demonstrates more accurate results compared with previous methods. For Cityscapes test set, our method achieved mIoU improvements of 7.49% compared with the method of without knowledge distillation the student network.
Second, we propose a new regularization method called as pixel-wise adaptive label smoothing (PALS) via self-knowledge distillation to stably train semantic segmentation networks in a practical situation, in which only a limited amount of training data is available. As mentioned above, it is more hard to create semantic segmentation label compared with other problems. Therefore, a method using only limited training data is needed. However, training artificial neural networks using a limited amount of data is problematic as, it easily results in a decrease in the accuracy of the networks because of overfitting to the training data. To mitigate the problem caused by limited training data, various regularization methods have been proposed. However, proposed regularization methods do not consider limited training data, and most methods are not specialized
for semantic segmentation. In this thesis, we propose a regularization method via self-knowledge distillation, which specialized for limited semantic segmentation data. Our method demonstrates more accurate results compared with previous methods. Specifically, for the Cityscapes test set, our method achieved mIoU improvements of 0.076%, 1.848%, 1.137%, and 1.063% for 10%, 30%, 50%, and 100% training data, respectively, compared with the method of the cross-entropy loss using one-hot encoding with ground truth labels.