새로운 웹 공격이 발견되면 보안 전문가는 이를 분석한 후에 탐지 시그니처를 배포한다. 하지만 이러한 방법은 대응하는 시간 동안 보안에 공백이 생긴다는 단점이 있다. 머신러닝은 이러한 문제를 효율적으로 해결할 수 있게 해준다. 머신러닝을 사용할 때 중요한 성공 요인은 데이터에서 특성을 설계하는 것이다. 도메인 지식을 이용하여, 머신러닝 모델에 입력될 특성이 공격을 탐지하는데 필요한 정보를 포함하도록 해야 한다. 본 논문에서는 실제 오늘날의 대표적인 공격을 분석하여 머신러닝 모델에 입력될 적합한 특성을 설계하는 방법을 제안하고 이를 CSIC 2010 데이터 세트에 실증적으로 적용하였다. 제안하는 방법의 경우 학습용 데이터 세트 외에도 실제 오늘날 발생하는 웹 공격을 고려하여 더 일반화된 모델을 생성할 수 있도록 해준다.
Alternative Abstract
When a new web attack is discovered, security experts analyze it and distribute detection signatures. However, this method has the disadvantage that there is a security gap during the corresponding time. Machine learning can solve these problems efficiently. An important success factor when using machine learning is extracting features from data. Domain knowledge should be used to ensure that the features to be entered in the machine learning model include the information needed to detect web attacks. In this paper, we propose a method for designing suitable features to be entered into a machine learning model by analyzing a typical attack of today and empirically applied it to the CSIC 2010 data set. In addition to the training data set, the proposed method helps to generate a more generalized model considering the actual web attacks that occur today.