공중 에드 혹 네트워크(FANET : Flying Ad-Hoc Network)은 높은 이동성을 가지며 네트워크 토폴로지의 변화가 잦은 다수의 무인 항공기 (UAV : Unmanned Aerial Vehicle)노드로 이루어진 에드 혹 네트워크이다. 하지만 대부분의 무인 항공기 노드들은 빠른 이동성과 계산 성능의 제약으로 인한 연결성 저하 및 네트워크 성능 저하 문제가 있다. 그러므로 가볍게 작동하지만 적응적으로 운용할 수 있는 라우팅 프로토콜을 설계하는 것이 중요하다. 본 논문에서는 강화 학습에 기반한 목적지까지의 최소 홉과 링크 품질을 고려하는 라우팅 프로토콜을 제안한다. 제안하는 프로토콜의 주요 성능은 OPNET 시뮬레이터를 통해 측정하였으며 제안하는 라우팅 프로토콜은 제어 오버 헤드를 낮추기 위해 네트워크 상황에 따라 노드 탐색 메시지의 주기를 조정한다. 결과적으로 강화 학습 기반의 라우팅 프로토콜은 낮은 오버헤드로 인해 네트워크 성능이 향상되고, 데이터 전송의 지연 시간이 줄어드는 장점을 갖는다.