최근 많은 객체 탐지 알고리즘은 경계 상자 회귀(경계 상자 회귀)를 사용하여 물체의 위치를 학습 및 예측을 한다. 객체 경계 상자를 좌표만으로 학습하는 것은 매우 어려운 일이다. 따라서, 경계 상자의 좌표 외에 객체의 위치를 나타낼 수 있는 새로운 타겟을 정의하거나, 부가적인 정보를 네트워크 학습에 활용한다면 객체 탐지 (object detection) 성능은 향상될 것이다. 해당 논문에서 우리는 마스크를 활용한 새로운 객체 검출 방법을 정의하였고 해당 방법을 사용하여 새로운 딥 러닝 기반의 객체 검출 및 분할 구조를 제안한다. 우리는 물체의 위치와 경계를 학습시키기 위해 바운딩 박스 마스크(경계 상자 마스크), 바운딩 쉐이프 마스크(bounding shape 마스크)를 제안한다. 제안 방법의 효과를 면밀히 평가하기 위해서, 우리는 Faster R-CNN 구조에 바운딩 쉐이프 마스크를 더해서 구조를 확장하였으며 확장 된 구조에서 인스턴스 분할 (인스턴스 segmentation) 과 객체 탐지의 성능을 평가하였다. 위 같은 구조를 갖는 모델을 우린 BshapeNet이라고 부른다. 더 나아가, 우리는 Mask R-CNN에 바운딩 쉐이프 마스크를 더한 구조를 제안하였는데 이 모델을 우린 BshapeNet+라 부른다. BshapeNet+는 객체 탐지는 물론 인스턴스 분할을 병렬적으로 진행할 수 있는 모델이다. 우리의 제안 모델 중 최고 성능을 갖는 BshapeNet+는 MS COCO 와 Cityscapes 데이터 셋에서 모두 경쟁력 있는 성능을 보인다. 제안 모델인 BshapeNet+는 MS COCO test-dev와 Cityscapes val에서 각각 Faster R-CNN+RoIAlign 모델 보다 42.4%, 32.3% 높은 AP를 기록하였다. 특히, 제안 모델은 작은 객체 탐지에서 주목할 만한 성능을 보이는데, 이전 SOTA 모델보다 높은 24.9% AP를 기록하였다. 인스턴스 분할에서도 마찬가지로 제안 모델은 두 데이터 셋에서 Mask R-CNN보다 월등한 성능을 보인다.