본 연구에서는 문학 텍스트의 특징을 표현할 수 있는 방법을 제안한다. 제안하는 방법은 소설에 등장하는 인물들의 관계를 네트워크로 구성하고, 주요 인물과 동조 또는 대립하는 인물들 간의 감성 점수의 흐름을 파악하여 소설들을 표현한다. 구성된 네트워크의 노드인 인물들은 개체명 인식기(named entity recognizer)를 통하여 추출하였고 엣지는 소설 문장 별로 기술된 감성 단어를 기반으로 구성하였다. 인물 네트워크 상에서의 주인공 그룹과 대립인물 그룹의 분류는 부호 그래프 군집화(signed graph clustering)로 수행하였다. 소설은 인물들 간의 상호작용을 통하여 진행되기 때문에 네트워크를 이용한 인물 그룹화 이를 통하여 인물들의 감성을 강조한다. 하나의 소설을 네 개의 단락(기승전결)으로 나누고, 각 단락 마다 그룹별 감성이 강조되어 표현된다. 제안하는 방법을 사용하여 소설을 정량적으로 표현하고, 추출 벡터를 사용하여 군집화하였다. 기존의 방법론을 사용한 군집화 결과를 제안방법과 비교하였을 때, 군집의 분류 정도 및 군집 별 불순도가 제안 방법의 성능이 우수함을 보였다.
Alternative Abstract
In this study, we propose a method for expressing literary works using machine learning. The proposed method expresses novels by composing a network of characters appearing in the novel and identifying the flow of sentiment scores between characters who agree or oppose the main character. Characters, represented as nodes on the constructed network, are extracted via the named entity recognizer, whereas edges are constructed based on the emotional words described in the novel. Protagonist and antagonist groups on the character network are classified via signed graph clustering. The novel proceeds through the interaction between the characters, and the groups are segmented to emphasize this through character grouping and network construction. A novel is classified into four acts, and the emotions of each group are emphasized and expressed in each act. 600 novels are clustered using the proposed method; subsequently, they are compared and tested using other expression methods.