어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 즉, 소수 클래스의 적중률이 다수 클래스의 적중률에 비해서 매우 낮게 나타나는 것이다.
본 연구에서는 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine(SVM), 인공신경망 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델이다.
개발된 하이브리드 모델의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터를 사용하여 평가하였다. 하이브리드 모델의 민감도는 94.47%이었고, 특이도는 70.41%이었다. 동일 데이터에 대한 SVM 모델의 민감도는 94.65%이었고, 특이도는 66.20%이었다. 그러므로 SVM 단일 기법만을 사용한 모델에 비해서, 본 연구에서 개발된 하이브리드 모델이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 성능을 보였다.
Alternative Abstract
We call a data set where the number of records belonging to a certain class far outnumbers the number of records belonging the other class, 'imbalanced data set'. Classifiers often perform poorly on imbalanced data sets. In other words. the hit ratio of minority class is very low in comparison with that of majority class.
In this research, we developed a classifier that improves the hit ratio of minority class while maintaining the hit ratio of majority class. Our classifier is a hybrid model of such techniques as support vector machine(SVM), artificial neural network and decision tree.
The performance of our hybrid model was tested on 'Churn Data' provided by UCI Machine Learning Repository. The specificity of our model was 70.41% while that of SVM model was 66.20%, and the sensitivity of our model was 94.47% while that of SVM model was 94.65%. Therefore, compared to the performance of SVM model, our hybrid model improves the hit ratio of minority class while maintaining the hit ratio of majority class.