제조 공정에서 발생하는 다양한 데이터들은 설비와 세부 공정들의 상태를 반영하기 때문에, 생산된 제품에 대한 품질 관리 등의 총체적인 모니터링을 위해서는 이에 대한 분석이 필수적이다. 그러나 이 과정에서 데이터 분석을 위한 방법론의 효율을 저하시키는 다양한 문제적 구조들이 존재하며, 불량품 데이터의 희소성으로 인해 발생하는 불균형 데이터(imbalanced data)와 물리적 또는 논리적 오류 등으로 인해 발생하는 결측 데이터(missing data)가 가장 대표적인 예시이다.
따라서 본 연구에서는 1) 불균형 데이터로 인한 문제를 해결하기 위해 하나의 클래스만을 가정하는 단일 분류(One-Class Classification, OCC) 관점으로 접근하며, 2) 관측된 데이터를 바탕으로 결측된 데이터의 값을 추정하는 결측 데이터의 보완(imputation)을 고려한다. 먼저, 단일 분류 측면에서는 기존의 단일 분류 알고리즘들의 한계점인 분류 성능과 분류 결과에 대한 사후 분석 가능성 사이의 trade-off를 극복할 수 있는 기하학적 단일 분류기 One-Class Hyper-Rectangle (H-RTGL) Descriptor(1-HRD)를 설계하였다. 1-HRD는 데이터 집합에서 생성되는 기하학적 규칙(geometric rule)인 인터벌(interval)로 구성되어 있으며, 단일 분류를 수행할 수 있을 뿐 아니라, 이러한 인터벌을 바탕으로 분류 결과에 대한 해석까지 제공할 수 있다. 인터벌을 생성하는 방법에 따라 병합(merging), 분리(partitioning), 밀도(density)의 3가지1-HRD를 정의하였으며, 특히 잠재력이 높은 밀도 기반의 1-HRD에 대해 효율적으로 분류기를 생성할 수 있는 유전 알고리즘(Genetic Algorithm)을 함께 설계하였다.
한편, 결측 데이터를 보완하는 과정에서 결측 데이터는 전체 속성 공간의 데이터보다 결측 데이터 주변의 국소 공간(local space)에서 발생하는 데이터의 패턴을 따를 가능성이 높기 때문에 이러한 국소 공간의 영향력이 클 수 있다. 따라서 본 연구는 이러한 국소 공간을 체계적으로 정의하고, 이를 바탕으로 결측된 속성 값을 추정하는 방법을 제안하였다. 보다 구체적으로, 1-HRD롤 통해 분리된 속성 공간에서 계산되는 모델을 바탕으로 결측 데이터의 보완을 수행하고자 하며, 이 과정에서 모든 H-RTGL의 영향력을 동시에 고려할 수 있도록 퍼지 집합(fuzzy set)을 이용한 퍼지 1-HRD 기반 보완 알고리즘을 설계하였다.
이후, 단일 분류기의 분류 성능과 보완된 값의 정확도를 검증하기 위해 UCI machine learning repository에 기록된 데이터 집합을 토대로 수치 실험을 수행하였다. 더 나아가, 두 요소를 동시에 고려하여 결측 데이터를 보완하는 전처리(pre-processing)를 통해 분류기의 정확도를 제고할 수 있음을 증명하였다.