본 논문에서는 영상 내에서 관심 객체의 위치를 검출하는 방법을 다루고있다. 최근 딥러닝의 발전은 영상 내의 객체를 검출하는데 있어 놀라운 결과를 보여줬다. 객체를 검출하는 네트워크들은 일반적으로 경계 상자 형식으로 위치를 검출한다. 하지만 경계 상자 형식의 검출 방식은 어노테이션을 수행하는데 많은 시간이 소요되고 영상 내 객체의 크기가 작거나 특정 키포인트가 중요한 경우에는 적합하지 않으며, 네트워크 구조에 완전 연결 레이어를 포함하기 때문에 입력 사이즈가 고정되어 있다는 단점이 있다. 따라서 본 논문에서는 경계 상자 형식을 사용하지 않고 객체의 위치를 검출하며 FCN 구조를 이용하여 입력 사이즈에 강인한 검출 방법을 제안한다.
제안하는 방법은 히트맵 기반 접근법을 사용한다. 객체가 이동하면서 발생하는 모션 블러에 강인하게 동작하도록 연속한 프레임과 그 차이 값을 결합하여 입력으로 한다. 네트워크의 출력은 입력과 동일한 사이즈의 1채널 이미지이고 각 픽셀 값은 객체의 키포인트일 확률 값이다. 즉, 이미지의 모든 픽셀에 대해 객체의 위치일 확률을 예측하여 객체의 위치를 검출한다.
제안하는 방법에 대한 실험은 실제 기업으로부터 제품 개발에 필요한 테스트 영상을 제공받아 진행하였으며, 다른 객체 검출 알고리즘보다 정확도와 처리 속도 면에서 우수한 성능을 보여주었다.