자연어처리를 이용한 신산업군 분류

DC Field Value Language
dc.contributor.advisor구형건-
dc.contributor.author송은상-
dc.date.accessioned2022-11-29T02:32:59Z-
dc.date.available2022-11-29T02:32:59Z-
dc.date.issued2021-08-
dc.identifier.other31015-
dc.identifier.urihttps://dspace.ajou.ac.kr/handle/2018.oak/20515-
dc.description학위논문(석사)--아주대학교 일반대학원 :금융공학과,2021. 8-
dc.description.abstract본 연구는 자연어 처리를 이용하여 기업에서 추진하고 있는 사업을 반영한 새로운 산업군 분류를 실시하였다. 데이터는 2020년-2021년 SEC의 10-K report를 사용하였고, S&P 500에 포함되는 회사들의 Item 1. Business로 데이터를 구성하였다. 연구에서는 워드투벡터와 코사인 유사도를 이용하여 새로운 산업군을 만들었다. 그리고 신 산업군과 기존 글로벌산업분류기준에 따라 분류된 산업군의 차이와 효과성을 보이기 위해, 특정 회사를 중심으로 수익률에 대한 상관관계의 평균을 비교해 보았다. 또한 S&P 500 index와의 연관성을 배제시키기 위해 각 기업과 S&P 500 index 수익률의 회귀분석 잔차를 이용하여 대표기업에 대한 각 기업의 상관관계의 평균을 비교해 보았다. 분석 결과 글로벌산업분류기준에 속한 산업군보다 대표기업과의 코사인 유사도를 기준으로 만든 신산업군이 대표기업과 상관관계가 더 높은 것으로 확인되었다. 또한 S&P 500 index와의 회귀분석 잔차로 비교한 것을 보면, 대표기업에 대하여 다수의 신산업군이 글로벌산업분류기준으로 분류한 산업군보다 더 높은 상관관계를 보여주었다. 따라서 본 연구는 기존의 확률 기반이나 딥러닝 방식이 아닌 워드투벡터를 사용하여 산업군 분류를 효율적으로 하고, 단어의 빈도수를 사용하지 않아 기업에서 추진하는 사업 내용에 따라 산업군을 다르게 적용시켰다는 점에서 의의가 있다.-
dc.description.tableofcontentsI. 서론 1 II. 선행 연구 분석 및 본 연구의 차별성 3 III. 데이터 설명 5 A. 10-K report 5 B. S&P 500 요소 6 IV. 모형 설명 7 A. 워드투벡터 7 B. 코사인 유사도 9 V. 분석결과 10 Ⅵ. 결론 및 한계 21 참고문헌 22-
dc.language.isokor-
dc.publisherThe Graduate School, Ajou University-
dc.rights아주대학교 논문은 저작권에 의해 보호받습니다.-
dc.title자연어처리를 이용한 신산업군 분류-
dc.title.alternativeA New Classification of Industries Using Natural Language Processing-
dc.typeThesis-
dc.contributor.affiliation아주대학교 일반대학원-
dc.contributor.department일반대학원 금융공학과-
dc.date.awarded2021. 8-
dc.description.degreeMaster-
dc.identifier.localId1228063-
dc.identifier.uciI804:41038-000000031015-
dc.identifier.urlhttps://dcoll.ajou.ac.kr/dcollection/common/orgView/000000031015-
dc.subject.keyword산업군 분류-
dc.subject.keyword워드투벡터-
dc.subject.keyword자연어처리-
dc.subject.keyword코사인 유사도-
Appears in Collections:
Graduate School of Ajou University > Department of Financial Engineering > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse