클라우드, 빅데이터의 출현으로 새롭게 인공지능이 조명되며, 4차 산업혁명 시대를 열었다. 이제 데이터는 산업 전반에 많은 변화를 야기하며 지능형 서비스의 중요성을 증대시키고 있다. 제조업에서는 이러한 지능형 인프라를 기반으로, 비정형 데이터를 처리하고 분석하여 유의미한 정보를 얻고자 하는 노력이 지속적으로 이루어 지고 있다.
특히 스마트 팩토리로 시작한 자동화를 기반으로 다양한 데이터를 수집하고 있으며 지능화를 가미하여 생산성을 증대하고자 노력하고 있다. 하지만 생산성에 악영향을 미치는 요인 중 하나인 설비 고장으로부터 수집하는 정비 데이터는 부착된 센서 등을 통해 자동으로 수집되는 데이터가 아니라, 조직의 구성원에 의해 수동으로 수집되는 데이터이다.
따라서 수동으로 수집되는 데이터의 특성 상 데이터 수집 과정에서 인적 오류로 인해 잘못된 데이터가 수집되는 경우 또한 발생한다. 인적 오류는 그 특성상 오류 자체를 인지하지 못하는 경우가 많으며, 결국 인적 오류에 의해 수집된 데이터는 결국 데이터의 무결성을 해친다. 이는 품질경영을 통해 데이터를 활용하고자 하는 기업의 활동에 악영향을 미친다.
본 논문에서는 ISO-8000 품질경영시스템의 지침에 따라 작성된 반도체 정비 데이터에서 자주 발생하는 카테고리 분류 실수를 개선하기 위해 카테고리 선택 자동화를 위한 특성과 요인을 텍스트 데이터 내에서 찾고자 하였고, 다양한 머신 러닝 방법론을 통해 적합한 카테고리를 예측하고 검증하였다. 이후, 이를 딥러닝 모델로 구성하여 지능형 서비스로 운영 가능성을 확인하였다.
실제 시뮬레이션을 위해 데이터의 수집부터 분석, 검증, 운영 모델 구축 등을 직접 엔터프라이즈 클라우드 환경에 구축하여 실행함으로써, 추후 대용량의 데이터베이스 환경에서 카테고리 예측 실수가 발생하였을 때 실시간으로 응답하는 지능형 서비스를 제공할 수 있는 확산 가능성을 제시하였다.
본 연구에서 제안한 모델 및 실험 결과를 통해 데이터 품질 개선의 자동화 및 지능형 서비스의 가능성을 확인하였다. 클라우드 환경에서 조직의 서버로부터 대용량의 데이터를 전송하는 파이프라인을 구축 후 기계학습 모델을 통해 입력자가 카테고리를 잘못 선택하였을 경우 실시간으로 수정 또는 피드백을 보내 주는 지능형 서비스에 대한 실제 적용이 가능할 것으로 기대된다.
또한, 데이터 품질 개선에 기계 학습 모델을 사용함으로써, 데이터 품질 개선을 위해 인적자원 및 시간의 절약을 기대할 수 있다. 본 연구에서 카테고리 분류의 오류를 예측하기 위하여 지속적으로 발전하고 있는 최신의 텍스트 데이터 임베딩 방식과 기계학습 및 딥러닝 방법론 모두에 대한 방법론을 비교 분석한 점은 텍스트 분야의 연구에 대한 새로운 시도이며, 향후 연구자에게 좋은 이정표로서 역할을 기대한다.