CTGAN 및 TabNet 기법을 활용한 불균형 정형 데이터 이진분류 모델링 개발

Alternative Title
Development of Imbalanced tabular data binary classification modeling using CTGAN and TabNet techniques
Author(s)
성성민
Advisor
권순선
Department
일반대학원 인공지능학과
Publisher
The Graduate School, Ajou University
Publication Year
2022-02
Language
kor
Keyword
CTGANSMOTETabNet논문데이터 증강불균형 정형 데이터아주대학교
Abstract
불균형 정형 데이터(Imbalanced Tabular data)란 관계형 데이터베이스 테이블에 담을 수 있는 데이터의 클래스 간 관측치가 현저하게 차이나는 데이터를 뜻한다. 이러한 불균형 데이터는 학습 시 다수 클래스의 예측에 편향되어 예측 정확도가 낮아지는 문제가 발생한다. 또한 딥러닝을 이용한 모델의 예측률이 우수하지만 정형 데이터에서의 연구는 상대적으로 저조한 편으로 현재까지 의사결정 나무 기반 앙상블 모델을 선호하는 경우가 많다. 그러나 최근 정형 데이터에서도 기존 모델의 성능을 개선한 딥러닝 알고리즘이 증가하고 있다. 본 논문에서 불균형 정형 데이터 이진 분류 성능의 향상을 위한 딥러닝 혼합 모델을 제안한다. 클래스 분포가 균일한 상태의 데이터를 만들기 위해 생성적 적대 신경망을 기반한 CTGAN 을 활용해 소수 클래스의 데이터를 증강하고 의사결정 나무 기반의 이점을 가진 TabNet 과 결합한 분류모델과 원본 데이터에 TabNet 을 적용한 결과와 기존 데이터 샘플링 중 오버 샘플링 기법인 SMOTE(Synthetic Minority Over-sampling Technique)과 TabNet 을 접목한 분류모델과 비교 분석한다. 또한 불균형의 비율이 다른 실제 데이터셋을 적용하여 성능을 비교하여 제안 방법론의 성능이 효과적임을 증명한다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/20674
Fulltext

Appears in Collections:
Graduate School of Ajou University > Department of Artificial Intelligence > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse