한국어 웹 문서 범주화를 위한 텍스트 마이닝 기법 연구

Alternative Title
Text Mining Techniques for Korean web documents classification and clustering
Author(s)
허성완
Advisor
손경아
Department
일반대학원 소프트웨어특성화학과
Publisher
The Graduate School, Ajou University
Publication Year
2016-02
Language
kor
Keyword
데이터 마이닝텍스트 마이닝형태소 분석LDASVM
Abstract
컴퓨터 네트워크 기술의 발전으로 인터넷 사용률 증가와 함께 웹 문서 또한 기하급수적으로 증가하고 있다. 이로 인해 폭발적으로 증가하는 웹 문서를 빠르고 정확하게 분류하는 문제 또한 큰 이슈가 되고 있다. 하지만 텍스트 마이닝 기법들은 주로 영어로 작성된 문서들을 중심으로 연구가 진행되고 있어 한국어로 작성된 문서들을 위한 텍스트 마이닝 기법에 대한 연구는 아직 활발하게 진행되지 않은 상태이다. 이는 한국어 특유의 중의적 의미를 가진 단어의 빈번한 사용과 용언의 불규칙 활용, 자유로운 어순, 띄어쓰기 문제 등 한국어 분석에 많은 어려움이 존재하기 때문으로 판단된다. 본 연구에서는 단어의 중의적 사용을 제거하는 방법으로 선택적 Bigram 모델을 제안한다. 빈번하게 함께 사용되는 단어 간의 결합과 형태소 분석을 통해 분리된 품사 간의 결합을 통해 문장 구성 요소의 중의적 해석을 제한한다. 또한, 웹을 통하여 수집한 한국어 웹 문서, 전자메일, 인터넷 신문기사를 형태소 분석, N-gram 모델, 품사결합을 통해 전처리하고, 이를 범주화하기 위한 텍스트 마이닝 기법을 제안하고 이를 통해 선택적 Bigram 모델의 성능을 평가한다. 텍스트마이닝을 위한 기법은 현재까지 많은 방법이 소개되었고, 현재도 개발되고 있다. 모든 문서에 가장 적합한 텍스트 마이닝 기법은 존재하지 않는다. 분석에 사용될 데이터의 특성을 잘 파악하고 그에 맞는 기법을 활용하는 것이 분석 결과의 품질을 높이는 방법이다. 본 연구에서는 웹 문서를 분석하여 사람의 스트레스 원인을 분석하고, 전자메일을 주제별로 군집화하는 문제, 낚시성 인터넷 신문기사를 분류하는 문제에 적합한 텍스트 마이닝 기법을 제안한다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/10628
Fulltext

Appears in Collections:
Graduate School of Ajou University > Department of Software Characterized Chemistry > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse