토픽모델링 이용한 교통 VOC 데이터 분류 방법론에 관한 연구

Alternative Title
Study on Methodology of Traffic VOC Data Clustering Using Topic Modeling
Author(s)
김지원
Alternative Author(s)
JIWON KIM
Advisor
윤일수
Department
일반대학원 교통공학과
Publisher
The Graduate School, Ajou University
Publication Year
2021-02
Language
kor
Keyword
VOC(Voice of Customer)단어임베딩텍스트마이닝토픽모델링
Abstract
제4차 산업혁명 시대에 인공지능, 사물인터넷 등의 활용성이 주목받으며 데이터의 중요성이 드러나고 있다. 실시간으로 데이터가 생성되고 있으며 이처럼 많은 양의 데이터를 빅 데이터(big data)라고 부른다. 현재 빅 데이터의 범주에는 엑셀(excel)과 같은 정형화된 데이터뿐만 아니라 소셜 네트워크 서비스를 통해 생성되는 구조화되지 않은 비정형 데이터까지 포함하고 있다. 이처럼 비정형 데이터의 양이 증가하며 분석 기법의 하나인 텍스트 마이닝(text mining)에 대한 여러 가지 기법들이 등장하고 있다. 이에 본 연구에서는 텍스트 마이닝의 한 기법인 토픽 모델링을 활용하여 교통 고객의 소리(voice of customer, VOC) 데이터 분류 방법론을 제시하고자 한다. 본 연구의 범위는 2013년~2016년까지의 한국도로공사의 VOC 데이터이다. 총 데이터의 개수는 18,277건이며, 그중에서 7,206건의 데이터가 ‘기타’ 유형으로 분류되어있는 실정이었다. 따라서 텍스트 마이닝 기법인 토픽 모형을 통해서 VOC 데이터의 유형을 내용만을 기준으로 고객의 입장을 고려하여 재분류함으로써 향후 데이터 활용의 효율성을 높이기 위한 방법론을 제시하였다. 먼저 전통적인 기법인 LDA 토픽 모델링만을 활용하여 기존 유형 개수인 6가지 유형으로 구분해보았다. 그 결과는 데이터가 모두 기존 유형 그대로 할당되는 것은 기술적으로 힘들며 원인으로는 기존 데이터가 명확한 기준이 없이 구분되어있기 때문으로 판단되었다. 따라서 LDA 토픽 모델링과 Word2Vec 기법을 결합한 방법론을 적용하여 새로운 유형으로 구분해보았다. 그 결과, LDA 토픽 모델링만을 적용한 결과보다 데이터의 분류가 눈에 띄게 명확하게 구분됨을 확인할 수 있었다. 교통 VOC 데이터를 관리하는 기업 또는 행정기관의 업무의 시사점을 도출하고 데이터 관리자뿐만 아니라 이용자로서도 서비스 개선에 활용이 가능할 것이라고 사료된다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/20244
Fulltext

Appears in Collections:
Graduate School of Ajou University > Department of Transportation System Engineering > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse