책, 뉴스, 블로그, 소셜 네트워크 서비스 등 다양한 종류의 데이터들이 생성됨에 따라서, 이를 분석하고 탐구하기 위한 텍스트 마이닝에 대한 수요는 지속적으로 증가되어 왔다. 기존의 텍스트마이닝에서 시도되었던 연구들은 대부분 BOW(Bag of Words) 모델을 기반으로 TF-IDF 모델이 자주 사용되고 있다. BOW 모델은 단어의 순서를 고려하지 않고 오직 단어의 빈도를 고려하는 방식이기 때문에 의미론적 특성을 읽어버린다는 단점을 가지고 있다. 그래서 이를 해결하고자 3 계층적 베이지안 생성 확률 모델이 LDA(Latent Dirichlet Allocation)가 나왔다. LDA는 단어들은 비슷한 토픽으로 묶는 역할을 잘 해주었지만 단어자체가 가지는 의미론적 특성을 가지지는 못하였다. 최근 들어서 신경망 네트워크를 기반으로 단어의 의미론적 특성과 문법적 특성을 고려하는 단어 임베딩기술이 나왔다. 단어 임베딩은 단어가 나오는 순서를 고려하여 단어를 낮은 차원의 연속적인 벡터로서 변환해주는 것을 말한다. 단어를 같은 공간상에 연속 벡터로 표현됨으로써 단어간의 유사도 분석, 거리분석이 가능하고, 의미론적 특성과 문법적인 특성이 이전의 BOW모델들의 비해서 잘 고려한다.
본 연구는 BOW모델로 사전 연구된 두 가지 문제를 단어 임베딩을 적용하여 비교 실험을 진행하였다. 첫 번째 사전 연구는 짧은 문장 토픽 카테고리 분류에 대한 연구이다. 사전 연구에서는 소셜 데이터에 대한 토픽 카테고리 분류를 수행하기 위해서 이미 잘 정제된 뉴스 미디어 자료를 사용하는 크로스 미디어 전략을 수행하여 이러한 문제를 해결하였다. 하지만 기존의 BOW모델이 가지는 단점으로 인해 많은 전처리와 수작업이 필요하고, 의미론적인 특성을 잃어버린 BOW모델에서는 높은 성능이 나오지 않는 문제를 가지고 있었다. 그래서 이러한 문제를 해결하기 위해 단어 임베딩을 문제에 적용하였고 기존 대비 성능 향상을 이룰 수 있었다. 또한 기존 BOW 모델에서는 중성 토픽 카테고리에 대한 분류를 위해 클러스터링 기법을 사용하여 단어 수를 줄이는 전략을 사용하였는데, 이러한 전략은 성능 하락이라는 단점을 가지고 있었다. 하지만 단어 임베딩을 사용하는 경우 단어 사이의 유사도를 기준으로 이러한 문제를 해결 할 수 있다. 두 번째로 임상의사결정지원(CDS)시스템을 연구하였다. 사전 연구에서는 BOW 모델 기반의 질의 가능도 언어 모델에 Jelinek Mercer 평탄화(LMJM)방법을 적용하고 온톨로지와 PRF 기반의 질의 확장을 통해 성능을 향상 시켜왔었다. 본 논문에서는 기존대비 성능 향상을 목표로 단어 임베딩 질의 확장방식과 LMJM 방식의 단어임베딩(LMJMWE)을 적용한 새로운 언어모델을 제안한다. 우리는 다양한 파라미터 실험과 질의확장에 대한 실험을 통해서 기존 대비 LMJMWE 방식이 더 좋은 성능을 보이고 있다는 것을 보여주었다.
본 논문을 통해서 우리는 기존의 BOW모델들로 풀고 있던 문제들을 단어 임베딩문제를 이용해서 단어의 의미론적 분석이 향상됨에 따라서 기존 대비 더 좋은 성능과 효율을 얻을 수 있었으며, 더욱 쉽게 적용 및 구축이 가능해졌다.