1989년 LeCun[1]에 의해 Convolutional Neural Network(CNN)이 처음 소개된 이후 CNN은 많은 분야에서 연구가 활발히 진행되고 있으며, 특히 영상인식분야에서 매우 빠르게 진화하고 있다. 데이터에서 패턴을 찾아내고, 그 패턴을 이용해 새로운 데이터의 결과를 예측하여, 입력된 이미지에서 객체를 인식하기 위한 패턴을 찾는 것에 유용하게 사용되며 높은 수준의 인식결과를 보여주었다.
오늘날 산업계에서는 이러한 알고리즘을 사용해 다양한 컴퓨터 비전문제를 해결하고 있으며, 유명 데이터셋을 딥러닝 학습에 이용해 알고리즘의 성능을 벤치마킹하기도 한다.
CNN은 높은 인식결과에 비하여 모델의 분류 결정기준에 대해서 세부적으로 알 수 없다. 즉, 다양한 시각적 인식 작업에서 인상적인 성능을 이끌어 냈지만[3], 어떤 이유로 수행능력이 좋은 지, 어떤 개선을 해야 하는지 명확한 이해가 없으며, 모델이 어떤 기준으로 결정을 내렸는지에 대해서는 세부적으로 알 수 없다.
본 연구에서는 사전학습(Pre-Training) 된 네트워크를 이용해 입력 이미지의 분류기(Classifier) 출력 감도의 조절과 분석으로 장면의 어느 부분이 분류에 중요한 역할을 하는지 새로운 시각화(Visualizing)와 데이터 증대가 머신 러닝에서 분류, 세그먼트 및 객체 감지 작업의 향상된 모델 아키텍처에 대한 연구로 이미지내의 물체에서 Class Activation Map(CAM)을 이용해 이미지내 물체의 위치를 예측하고 바운딩박스(Bounding box)를 이용해 물체 위치의 정확도를 검증하는 모델을 제안한다.
Alternative Abstract
In this paper, we propose the model a study of the improved model architecture of segment and object detection tasks, using the Class Activation Map (CAM) to predict the position of objects in an image and verify accuracy of object detection using bounding box.