온톨로지 구축을 위한 문서로부터 개념간의 관계 추출

Alternative Title
Relation Extraction from Documents for Constructing Ontology
Author(s)
김희수
Alternative Author(s)
Kim, Hee-soo
Advisor
박승규, 김민구
Department
정보통신전문대학원 정보통신공학과
Publisher
The Graduate School, Ajou University
Publication Year
2005
Language
kor
Abstract
오늘날 웹(Web)은 방대한 양의 정보를 가지고 있으며, 사람들과 기업들간의 의사소통(communications)을 위한 중요한 수단이 되었다. 특히, 웹에서 이루어지는 정보 및 서비스의 검색 혹은 정보의 교환에 기계가 참여함으로써 사용자에게 많은 편의를 제공하고 있다. 하지만 웹에 존재하는 대부분의 정보는 사람에 의한 이해를 목적으로 작성되었으며, 이것은 기계가 사용자의 요청을 처리하는데 큰 장애로 작용한다. 이를 해결하기 위한 방법으로 기계가 이해할 수 있는 형태로 정보를 표현하기 위한 시맨틱 웹(Semantic Web)이 제안되었다. 시맨틱 웹은 온톨로지(ontology)를 사용하여 특정 분야의 지식을 표현함으로써, 기계에 의한 정보의 이해와 기계들간의 정보의 공유 및 교환을 가능하게 한다. 하지만 대부분의 온톨로지는 특정 분야의 전문가나 지식 공학자에 의해서 만들어지기 때문에, 온톨로지의 구축과 유지를 위해 많은 시간과 비용을 필요로 한다. 이러한 문제를 해결하기 위해서 온톨로지 자동 구축을 위한 방법들이 연구되고 있다. 본 논문에서는 온톨로지의 구축 방법의 일환으로 통계적 접근 방법을 사용하여 문서로부터 온톨로지를 구성하는 개념간의 관계를 추출하는 방법을 제안한다. 본 논문에서 제안된 방법은 특정 분야의 문서와 문서상에 존재하는 개념을 기반으로 개념간의 연관 규칙(association rules)을 사용하여 연관 규칙을 형성하는 개념 쌍을 찾고, 두 개념 사이에 존재하는 내용(context)의 군집화(clustering)를 통해 두 개념간의 관계를 설명하는 패턴(pattern)을 찾는다. 마지막으로 패턴간의 군집화를 사용하여 개념 사이의 일반화된 관계를 명시한다. 본 논문에서는 TREC (Text REtrieval Conference)에서 제공하는 문서집합을 사용하여 개념간의 관계를 추출하고 그 결과를 평가한다.
Alternative Abstract
Today, the Web has a large amount of information and becomes an important expedient for communication between people and enterprises. There are also many machines to participate in this communication for providing people and enterprises with convenience. However, most of the information, which exists in the Web, is made for the human-oriented purposes. This fact is one of the obstacles for machines to process user’s requirements in the Web. Therefore, Semantic Web has been purposed to write information in machine-understandable forms. By representing some domain knowledge as well-formed ontology, the Semantic Web enables to share and exchange information between machines. However, there are needs for so much time and effort to construct ontology because ontologies can be made by domain experts and knowledge engineers. To solve this problem, there have been many researches to study methods for automatically constructing ontologies. In this paper, we propose a novel method to extract relations between concepts for constructing ontology which uses statistical approaches. The proposed method consists of three steps: First, the proposed method finds association rules, which consist of two concepts, from documents and concepts. Second, patterns are discovered from each rule by clustering contexts of the rule. Lastly, the method performs pattern clustering for finding generalized patterns, and provides the generated patterns with names, respectively. In this paper, we experiment and evaluate the proposed method by using document set offered by TREC (Text REtrieval Conference).
URI
https://dspace.ajou.ac.kr/handle/2018.oak/16453
Fulltext

Appears in Collections:
Special Graduate Schools > Graduate School of Information and Communication Technology > Department of Information and Communication > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse