뉴스 웹페이지 크롤링과 텍스트 정제 및 중요단어 추출 함수구현

DC Field Value Language
dc.contributor.advisor권순선-
dc.contributor.author김근교-
dc.date.accessioned2022-11-29T03:01:18Z-
dc.date.available2022-11-29T03:01:18Z-
dc.date.issued2022-02-
dc.identifier.other31736-
dc.identifier.urihttps://dspace.ajou.ac.kr/handle/2018.oak/20996-
dc.description학위논문(석사)--아주대학교 일반대학원 :인공지능학과,2022. 2-
dc.description.abstract텍스트 데이터에서의 핵심 내용을 추출하기 위해 사용되는 방법 중 하나는 해당 텍스트 데이터에서 많이 사용된 단어들을 찾는 것이다. 이 방법은 텍스트 데이터에서 자주 사용되는 단어들은 중요한 의미를 갖고 있으며 문서의 핵심내용을 대략적으로 확인할 수 있게 하는 단서라고 해석한다. 하지만, 단어 빈도를 계산하는 방법은 단어 간의 상관관계를 계산하지 않고 단순빈도 만을 기반으로 분석하기 때문에 문서의 성격과 맥락을 이해하고 분석하기에는 한계가 존재한다. 의미가 없는 단어가 단순 반복되어서 빈도수가 높게 측정될 수도 있고, 해당 문서에서 중요한 핵심 내용과는 전혀 상관없는 단어가 중요 단어로 잘못 추출될 수 있다. 이에 본 논문에서는 단순 단어빈도가 아닌 단어 간의 상관관계를 계산한 후 단어들 사이에서 중심역할을 하는 단어들을 찾아내는 방법을 사용한다. 웹페이지를 크롤링하여 정제한 후 데이터를 저장하고 단어 네트워크 맵을 그리는 과정인 텍스트 마이닝 과정을 수행하는 KTDA(Korean Text Data Analysis)함수를 제작하고, 한글 텍스트 문서에 대한 통계적 분석과 텍스트 분석에 적용하는 것이 본 연구의 목표이다.-
dc.description.tableofcontents1. 서론 1 2. 연구 방법론 2 2.1 웹 크롤링 2 2.2 단어 분석 3 2.2.1 TF-IDF 3 2.2.2 매개중심성 5 2.3 시각화 6 2.3.1 워드 클라우드 6 2.3.2 단어 네트워크 맵 6 2.4 연관성 분석 8 3. KTDA(Korean Text Data Analysis) 함수 구현 10 3.1 KTDA 함수 10 3.2 텍스트 마이닝 11 3.2.1 데이터 수집 12 3.2.2 텍스트 정제 12 3.2.3 차원 축소 14 3.2.4 텍스트 분석 15 4. 한글 텍스트 분석 16 4.1 갑상선암 관련 뉴스 데이터 17 4.2 최신 다음 뉴스 데이터 22 5. 결론 26 참고문헌 27-
dc.language.isokor-
dc.publisherThe Graduate School, Ajou University-
dc.rights아주대학교 논문은 저작권에 의해 보호받습니다.-
dc.title뉴스 웹페이지 크롤링과 텍스트 정제 및 중요단어 추출 함수구현-
dc.title.alternativeNews web page crawling, text purification, and important word extraction function implementation-
dc.typeThesis-
dc.contributor.affiliation아주대학교 일반대학원-
dc.contributor.alternativeNameKim Keun Gyo-
dc.contributor.department일반대학원 인공지능학과-
dc.date.awarded2022. 2-
dc.description.degreeMaster-
dc.identifier.localId1245161-
dc.identifier.uciI804:41038-000000031736-
dc.identifier.urlhttps://dcoll.ajou.ac.kr/dcollection/common/orgView/000000031736-
dc.subject.keywordTF-IDF-
dc.subject.keyword단어 네트워크 맵-
dc.subject.keyword매개중심성-
dc.subject.keyword웹 크롤링-
dc.subject.keyword텍스트 마이닝-
Appears in Collections:
Graduate School of Ajou University > Department of Artificial Intelligence > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse