본 연구에서는 강화학습 방법 중에서 Deep Q-network를 활용하여 각 스프레드에 최적화된 거래 및 손절매 경계값을 취함으로써 페어트레이딩 전략을 최적화하고자 한다. 페어트레이딩 전략은 시장 중립 전략으로써 주어진 조건하에서 이를 만족시킨다면 무조건 수익을 얻고 그렇지 않으면 손실이 발생하게 된다. 이를 기반으로 본 연구에서 제안하는 강화학습을 적용한 페어트레이딩 전략의 경우 다음과 같이 이루어진다. 스프레드가 진입 경계값에 도달하고 그 이후에 평균으로 회귀할 경우 에이전트는 긍정적인 보상을 받게 된다. 그러나 스프레드가 진입 경계값에 도달한 후 손절매 경계 값을 초과하거나 평균으로 회귀하지 못하면 에이전트는 부정적인 보상을 받게 된다. 에이전트는 할인된 미래 이익의 예상되는 총합을 최대화하기 위해 각 스프레드에 해당하는 최적의 진입 및 손절매 경계값를 선택하도록 훈련된다. 페어로 선택될 주식은 공적분 테스트를 사용하여 S&P500 지수를 구성하는 주식들 내에서 선택하였다. 본 연구에서 제안한 페어트레이딩 전략을 일정한 진입 및 손절매 경계값을 사용하는 기존의 페어트레이딩 전략과 비교 분석하였다. 실험 결과 강화학습을 이용하여 최적화된 페어트레이딩 전략이 기존의 전략들에 비해 모든 페어에서 우수한 성과를 내는 것을 확인하였다.