본 논문에서는 이상거래 탐지를 위한 효율적인 도메인 적응방법 을 제안한다 제안하는 방법은 공통 특성이 두 도메인 사이에서 이동될 때 발생하는 편차 Domain Shift) 를 최소화하기 위해 특성맵 (Feature map) 과 GAN(Generative Adversarial Network) 에서 사용되는 차별적 Discriminative) 특성을 사용한다 본 논문에서 제안하는 모델을 평가하기 위해 사용한 데이터셋 신용카드사기 데이터셋과 금융거래사기 데이터셋 모두 클래스의 분포 불균형 문제를 가지고 있어 이를 해결하고 클래스 불균형 정도에 따라 달라질 수 있는 탐지 정확도를 높이기 위하여 GAN 과 SMOTE(Synthetic Minority Oversampling Technique) 를 활용한 소수 클래스 Minority Class) 데이터 증강기법 Data Augmentation, Oversampling) 을 적용하여 새로운 데이터 샘플들을 생성하였다 이후 제안하는 도메인 적응 모델의 분류 성능을 비교 평가하기 위해서 머신러닝 기법 중 하나인 SVM(Support Vector Machine) 과 딥러닝 기법 중 하나인 CNN(Convolutional
Neural Network) 을 사용하였으며 분류성능평가지표를 통해 결과를 비교하였다 그 결과 본 논문에서 제안하는 도메인 적응 모델은 SVM 이나 CNN 을 사용한 분류모델에 비해 성능은 어느 정도 차이를 보이지만 상대적으로 학습을 위해 소요되는 시간을 줄임으로써 두 실험 데이터 모두에 적용 가능함을 보였다 SVM 은 CNN과 제안하는 도메인 적응 모델보다 탐지 성능은 좋지만, 데이터가 증가함에 따라 학습시간이 다른 두 모델에 비해 급격히 증가하는 결과를 보였으며, CNN을 사용한 모델의 탐지성능은 제안하는 도메인 적응 기법 모델과 비슷하나 , 학습시간이 더 소요하는 결과를 보였다 또한 두 도메인 데이터셋의 클래스 불균형 문제를 해결하기 위해 사용한 GAN 은 SMOTE 보다 좀 더 많은 시간이 소요되지만 더 좋은 분류성능을 보였으며 클래스 불균형 문제를 가진 데이터셋에 효과적임을 확인하였다.
Alternative Abstract
In this paper, an efficient domain adaptation method is proposed for fraud detection. The proposed method employs the discriminative characteristics used in feature maps and generative adversarial networks (GANs), to minimize the deviation that occurs when a common feature is shifted between two domains. To solve class imbalance problem and increase the model s detection accuracy, new data samples are generated by applying a minority class data augmentation method, which uses a GAN. We evaluate the classification performance of the proposed domain adaption model by comparing it against support vector machine (SVM) and convolutional neural network (CNN) models, using classification performance evaluation indicators. The experimental results indicated that the proposed model is applicable to both test datasets; furthermore, it requires less time for learning. Although the SVM offers a better detection performance than the CNN and proposed domain adaptation model, its learning time exceeds those of the other two models when dataset increases. Also, although the detection performance of the CNN based model is similar to that of the proposed domain adaptation model, its learning process is longer. In addition, although the GAN used to solve the class imbalance problem of the two datasets requires slightly more time than SMOTE (synthetic minority oversampling technique), it shows a better classification performance and is effective for datasets featuring class imbalances.