본 연구는 강화 학습으로 자동 트레이딩 시스템을 구축할 때 생기는 문제를 해결하기 위해 금융 데이터의 한계를 극복하고 실제 금융 시장 상황을 반영하는 세 가지 방법을 제안하여 총 이익을 극대화하는 것을 목표로 하고 있다. 첫째, 주식을 어떻게 거래할지 결정을 내리는 동시에 거래할 주식의 수를 예측하여 정하는 거래 시스템을 제안한다. 강화학습 방법의 일종인 Deep Q-Network(DQN)에 Deep Neural Network(DNN) Regressor를 추가하여 주식 수를 예측하는 자동화 시스템을 설계한다. 둘째, 혼란스러운 시장에서 어떤 전략이 이익을 내는데 효과적인지 분석하기 위해 Q-value를 사용하여 다양한 행동 전략을 연구한다. 마지막으로, 전이학습을 제안하여 충분하지 않은 금융 데이터로 인한 과적합을 방지한다. 본 연구에서는 이 세 가지 방법을 S&P500, KOSPI, HSI, EuroStoxx50 등 4가지 주식 지수를 사용하여 실험적으로 검증한 후 광범위한 연구를 수행한다. DNN Regressor로 주식 수를 정하는 자동 거래 시스템은 S&P500에서 4배, KOSPI에서 5배, HSI에서 12배, EuroStoxx50에서 6배의 수익이 증가하는 효과를 보였다. 시장 상황이 혼란스러운 상황에서 거래 결정을 미루는 전략은 S&P500에서 18%, KOSPI에서 24%, EuroStoxx50에서 49%의 순이익 증가율을 보였다. 또한 전이학습은 총 이익을 S&P500 2배, KOSPI 3배, HSI 2배, EuroStoxx50 2.5배 증가시킨다. 세 가지 제안된 방법을 모두 사용하는 거래 시스템은 S&P500에서 13배, KOSPI에서 24배, HSI에서 30배, EuroStoxx50에서 18배의 총 수익을 창출 해 시장 및 기존 강화학습 모델을 능가한다.