뉴스 웹페이지 크롤링과 텍스트 정제 및 중요단어 추출 함수구현

Alternative Title
News web page crawling, text purification, and important word extraction function implementation
Author(s)
김근교
Alternative Author(s)
Kim Keun Gyo
Advisor
권순선
Department
일반대학원 인공지능학과
Publisher
The Graduate School, Ajou University
Publication Year
2022-02
Language
kor
Keyword
TF-IDF단어 네트워크 맵매개중심성웹 크롤링텍스트 마이닝
Abstract
텍스트 데이터에서의 핵심 내용을 추출하기 위해 사용되는 방법 중 하나는 해당 텍스트 데이터에서 많이 사용된 단어들을 찾는 것이다. 이 방법은 텍스트 데이터에서 자주 사용되는 단어들은 중요한 의미를 갖고 있으며 문서의 핵심내용을 대략적으로 확인할 수 있게 하는 단서라고 해석한다. 하지만, 단어 빈도를 계산하는 방법은 단어 간의 상관관계를 계산하지 않고 단순빈도 만을 기반으로 분석하기 때문에 문서의 성격과 맥락을 이해하고 분석하기에는 한계가 존재한다. 의미가 없는 단어가 단순 반복되어서 빈도수가 높게 측정될 수도 있고, 해당 문서에서 중요한 핵심 내용과는 전혀 상관없는 단어가 중요 단어로 잘못 추출될 수 있다. 이에 본 논문에서는 단순 단어빈도가 아닌 단어 간의 상관관계를 계산한 후 단어들 사이에서 중심역할을 하는 단어들을 찾아내는 방법을 사용한다. 웹페이지를 크롤링하여 정제한 후 데이터를 저장하고 단어 네트워크 맵을 그리는 과정인 텍스트 마이닝 과정을 수행하는 KTDA(Korean Text Data Analysis)함수를 제작하고, 한글 텍스트 문서에 대한 통계적 분석과 텍스트 분석에 적용하는 것이 본 연구의 목표이다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/20996
Fulltext

Appears in Collections:
Graduate School of Ajou University > Department of Artificial Intelligence > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse