기업이 제품이나 서비스를 개발하고 개선하기 위해 고객의 의견을 수집, 분석하는 일은 대단히 중요하다. 정보통신의 발달로 고객 게시판이나 SNS를 통한 고객 의견 데이터 수집은 용이해졌으나 이러한 데이터의 80%이상인 비정형데이터로부터 의미 있는 정보를 도출하기 위해 추가적인 연구가 필요하다.
<br>본 연구에서는 자동차 산업의 비정형 고객 불만 데이터를 미리 선정한 카테고리로 분류하는 알고리즘을 제안하고 이 분류 결과를 바탕으로 잠재적 차량 결함을 탐지하는 방안을 제안한다. 제안하는 모델은 Word2Vec 기법을 활용하여 NHTSA(미국도로안전교통국)에 등록되어 있는 비정형 고객 불만 데이터를 임베딩하고 이를 이용해 미리 선정한 8개의 기준에 대한 점수 사전을 만들고 각 불만데이터에 대한 8개 기준별 점수를 계산하여 해당 불만데이터를 분류한다. 이렇게 분류된 결과는 기존 전문가 집단에 의해 분류된 내용과 비교를 통해 해당 알고리즘의 성능을 평가한다.
Alternative Abstract
For companies to develop and improve products or services, It is highly important to collect and analyze customer opinions. With the development of information and communications, collecting customer opinion data through customer bulletin boards or SNS has become easier, but further research is required to bring out meaningful information from unstructured data which is more than 80% of these data.
<br>Thus, in this study, we suggest an algorithm to classify unstructured customer complaint data in the automotive industry into pre-selected categories and a method to detect potential vehicle defects based on this classification result. The model that we propose uses Word2Vec techniques to embed unstructured
<br>customer complaints data registered with NHTSA, create a score dictionary for the pre-selected eight criteria, and calculate the scores for each complaint data to categorize them.