본 논문에서는 시계열 특성을 가진 보안 정형 데이터와 도메인 적응(Domain Adaptation)의 결합을 통해 이상 탐지에 효율적인 딥러닝 모델을 제안한다. 제안 모델은 서로 다른 두 개의 보안 도메인 데이터셋에 적용할 수 있으며, 두 도메인 사이의 확률적 데이터의 분포 차이를 최소화 하기 위해 적대적 학습을 사용하여 도메인 이동(Domain Shift)을 최소화하는 장점을 가진다. 본 논문의 실험에 사용된 데이터셋들은 모두 가변적인 길이를 갖고 있는 시스템 콜(System call) 시퀀스(Sequence) 데이터로, 시스템 콜 사이의 유의미한 상관관계를 찾기 위해 임베딩(Embedding)기법을 적용하는 등 데이터 전처리를 수행하고 다양한 임베딩 차원의 비교 실험을 통해 가장 높은 성능을 보이는 차원 수를 도출 후 입력데이터로 사용하였다.
제안 모델과의 성능 비교를 위해 제안 모델과 동일한 LSTM(Long Short-Term Memory)인코더를 적용하고 도메인 적응을 하지 않은 모델을 사용하였으며, 성능 평가지표를 통해 두 모델의 결과를 비교하였다. 그 결과, 본 논문에서 제안하는 모델이 도메인 적응을 하지 않은 모델보다 학습시간을 67% 단축하였고 유사한 재현율을 도출하며 효율적인 이상 탐지의 가능성을 보이는 반면, 도메인 적응을 하지 않은 모델은 높은 성능을 보이지만 학습시간이 길게 소요되는 한계점을 보였다.
또한, 본 연구의 모델은 기존 전이 학습(Transfer Learning)의 학습 과정처럼 큰 데이터셋에서 작은 데이터셋으로 전이하지 않아도 도메인 적응 방법을 통해 타겟 데이터가 소스 데이터 보다 상대적으로 매우 큰 경우에도 효과적인 이상 탐지 성능을 보임을 확인할 수 있었다.
Alternative Abstract
In this paper, we propose a deep learning model that is efficient for anomaly detection through the combination of secure structured data with time series characteristics and domain adaptation. The proposed model can be applied to two different secure domain datasets, and has the advantage of minimizing domain shift by using adversarial learning to minimize the distribution difference of stochastic data between the two domains. The datasets used in this paper are system call sequence data with variable lengths, and data preprocessing such as applying embedding techniques to find significant correlation between system calls is performed, and the number of dimensions with the highest performance is derived and used as input data.
To compare the performance with the proposed model, we applied the same Long Short-Term Memory (LSTM) encoder as the proposed model and used a domain-free model, and compared the results of the two models through performance evaluation indicators. As a result, the model proposed in this paper reduced learning time by 67% compared to the model without domain adaptation and derived similar reproducibility and showed the possibility of efficient anomaly detection, while the model without domain adaptation showed high performance but limitation of long learning time.
Furthermore, the model of this study shows effective anomaly detection performance even when target data is relatively much larger than source data through domain adaptation methods without transitioning from large to small datasets, such as the learning process of transfer learning.