기술이 발전할수록 데이터와 네트워크에 대한 공격위협은 증가하고 있다. 이런 공격에 대응하기 위해 보안 분야에 AI를 적용한 연구들이 많이 진행되고 있다.
<br> 본 연구에서는 차원축소와 특성선택을 활용하여 데이터를 전처리하고 기계학습 및 딥러닝 모델에 학습시켜 모델 간 성능을 비교해 효과적인 침입탐지시스템 방법을 제시하고자 하였다.
<br> 실제 환경의 침입탐지시스템에서 수집된 NSL-KDD 데이터셋을 사용하여 데이터를 One-Hot Encoding으로 더미화 한 후 Min-Max Scaling을 하였다. 이후 특성선택 방법으로 Filter-based Method, Wrapper-based Method, Embedded-based Method를 사용하고 특성추출 방법으로 PCA를 사용하여 20개의 차원, 10개의 차원으로 축소 시켰다. 기계학습 모델은 Logistic Regression, XGBoost, LightGBM, SVM을 사용하고 딥러닝 모델은 ANN을 사용하여 학습을 진행하였다.
<br> 특성선택과 추출을 활용하여 다양한 조합을 구성하였으며, 모든 결과에서 PCA를 적용한 경우가 높은 성능을 나타냈다. 특성 선택은 Filter-based Method 기반의 조합들이 높은 성능을 나타내었다.
<br> 차원의 수에 따른 성능을 비교분석하였으며, 20개의 차원을 가진 특성들이 10개의 차원을 가진 특성들보다 평균적으로 높은 값을 나타냈다. 하지만 PCA를 단독으로 사용하여 10개의 차원으로 축소한 경우는 모든 모델과 성능에서 가장 높은 값을 나타내는 것을 확인했다.
<br> 모델 간의 성능을 비교하였을 때 기계학습 모델에서는 XGBoost가 가장 좋은 성능을 나타냈다. 모든 모델에서 Logistic Regression이 가장 낮은 성능을 나타냈다.
<br> 따라서 PCA를 사용하여 10개의 차원으로 축소한 후 XGBoost 모델을 활용하는 것이 효과적으로 침입탐지를 할 수 있다는 것을 확인했다.