불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 李在植 | - |
dc.contributor.author | 권종구 | - |
dc.date.accessioned | 2018-11-14T05:16:42Z | - |
dc.date.available | 2018-11-14T05:16:42Z | - |
dc.date.issued | 2005-08 | - |
dc.identifier.other | 762 | - |
dc.identifier.uri | https://dspace.ajou.ac.kr/handle/2018.oak/14240 | - |
dc.description | 학위논문(석사)--亞洲大學校 大學院 :경영정보학과,2005. 8 | - |
dc.description.abstract | 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 즉, 소수 클래스의 적중률이 다수 클래스의 적중률에 비해서 매우 낮게 나타나는 것이다. 본 연구에서는 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine(SVM), 인공신경망 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델이다. 개발된 하이브리드 모델의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터를 사용하여 평가하였다. 하이브리드 모델의 민감도는 94.47%이었고, 특이도는 70.41%이었다. 동일 데이터에 대한 SVM 모델의 민감도는 94.65%이었고, 특이도는 66.20%이었다. 그러므로 SVM 단일 기법만을 사용한 모델에 비해서, 본 연구에서 개발된 하이브리드 모델이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 성능을 보였다. | - |
dc.description.tableofcontents | 목차 제 1 장 서론 = 1 제 1 절 연구의 배경 및 목적 = 1 제 2 절 연구의 방법 = 2 제 3 절 논문의 구성 = 3 제 2 장 이론적 배경 = 4 제 1 절 불균형 데이터 (Imbalanced Data) 집합 = 4 제 2 절 SVM (Support Vector Machines) = 5 제 3 절 인공신경망(Artificial Neural Network) = 8 제 4 절 의사결정나무(Decision Tree) = 11 제 3 장 연구 분석 = 14 제 1 절 분류기법의 적용 = 14 1. SVM = 14 2. ANN = 14 3. ROC 분석 = 15 제 2 절 SVM과 ANN의 성능 비교 = 17 1. Churn 데이터 = 17 1.1 Churn 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 18 1.2 Churn 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 20 2. Credit 데이터 = 22 2.1 Credit 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 22 2.2 Credit 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 24 3. 이탈고객 데이터 = 26 3.1 이탈고객 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 26 3.2 이탈고객 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 28 4. SVM과 ANN의 성능 결과 요약 = 30 제 4 장 데이터 분석 및 실험 = 32 제 1 절 데이터 분석 = 32 제 2 절 학습 및 테스트를 위한 자료 선정 = 33 제 3 절 샘플링 작업 = 34 제 4 절 이탈고객 예측 모델의 설계 = 36 1. SVM 구조 설계 = 36 2. ANN 구조 설계 = 36 3. 결합모델 설계 = 37 제 5 절 기본모델의 선택 = 39 제 6 절 판별모델의 설계 = 40 1. 판별모델 1 = 40 2. 판별모델 2 (W_DT 규칙) = 41 3. 판별모델 2 (S_DT 규칙) = 43 4. 판별모델 2의 비교 및 선정 = 46 제 7 절 결합모델의 성능 평가 = 49 제 5 장 결론 = 50 제 1 절 연구 결과 및 시사점 = 50 제 2 절 연구의 한계점 및 향후 연구 과제 = 51 참고문헌 = 52 | - |
dc.language.iso | kor | - |
dc.publisher | The Graduate School, Ajou University | - |
dc.rights | 아주대학교 논문은 저작권에 의해 보호받습니다. | - |
dc.title | 불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 | - |
dc.title.alternative | Kwon, Jong Gu | - |
dc.type | Thesis | - |
dc.contributor.affiliation | 아주대학교 경영대학원 | - |
dc.contributor.alternativeName | Kwon, Jong Gu | - |
dc.contributor.department | 경영대학원 경영정보학과 | - |
dc.date.awarded | 2005. 8 | - |
dc.description.degree | Master | - |
dc.identifier.localId | 564681 | - |
dc.identifier.url | http://dcoll.ajou.ac.kr:9080/dcollection/jsp/common/DcLoOrgPer.jsp?sItemId=000000000762 | - |
dc.description.alternativeAbstract | We call a data set where the number of records belonging to a certain class far outnumbers the number of records belonging the other class, 'imbalanced data set'. Classifiers often perform poorly on imbalanced data sets. In other words. the hit ratio of minority class is very low in comparison with that of majority class. In this research, we developed a classifier that improves the hit ratio of minority class while maintaining the hit ratio of majority class. Our classifier is a hybrid model of such techniques as support vector machine(SVM), artificial neural network and decision tree. The performance of our hybrid model was tested on 'Churn Data' provided by UCI Machine Learning Repository. The specificity of our model was 70.41% while that of SVM model was 66.20%, and the sensitivity of our model was 94.47% while that of SVM model was 94.65%. Therefore, compared to the performance of SVM model, our hybrid model improves the hit ratio of minority class while maintaining the hit ratio of majority class. | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.