자연어처리를 이용한 신산업군 분류

Alternative Title
A New Classification of Industries Using Natural Language Processing
Author(s)
송은상
Advisor
구형건
Department
일반대학원 금융공학과
Publisher
The Graduate School, Ajou University
Publication Year
2021-08
Language
kor
Keyword
산업군 분류워드투벡터자연어처리코사인 유사도
Abstract
본 연구는 자연어 처리를 이용하여 기업에서 추진하고 있는 사업을 반영한 새로운 산업군 분류를 실시하였다. 데이터는 2020년-2021년 SEC의 10-K report를 사용하였고, S&P 500에 포함되는 회사들의 Item 1. Business로 데이터를 구성하였다. 연구에서는 워드투벡터와 코사인 유사도를 이용하여 새로운 산업군을 만들었다. 그리고 신 산업군과 기존 글로벌산업분류기준에 따라 분류된 산업군의 차이와 효과성을 보이기 위해, 특정 회사를 중심으로 수익률에 대한 상관관계의 평균을 비교해 보았다. 또한 S&P 500 index와의 연관성을 배제시키기 위해 각 기업과 S&P 500 index 수익률의 회귀분석 잔차를 이용하여 대표기업에 대한 각 기업의 상관관계의 평균을 비교해 보았다. 분석 결과 글로벌산업분류기준에 속한 산업군보다 대표기업과의 코사인 유사도를 기준으로 만든 신산업군이 대표기업과 상관관계가 더 높은 것으로 확인되었다. 또한 S&P 500 index와의 회귀분석 잔차로 비교한 것을 보면, 대표기업에 대하여 다수의 신산업군이 글로벌산업분류기준으로 분류한 산업군보다 더 높은 상관관계를 보여주었다. 따라서 본 연구는 기존의 확률 기반이나 딥러닝 방식이 아닌 워드투벡터를 사용하여 산업군 분류를 효율적으로 하고, 단어의 빈도수를 사용하지 않아 기업에서 추진하는 사업 내용에 따라 산업군을 다르게 적용시켰다는 점에서 의의가 있다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/20515
Fulltext

Appears in Collections:
Graduate School of Ajou University > Department of Financial Engineering > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse