본 연구에서는 발화 간 유사성을 계산하는 개념적 반복(conceptual recurrence)과 토론자들의 상호작용으로 나타나는 일관성인 내적 일관성에 영향을 주는 메트릭(metric) 기반으로 토론의 대본을 소주제들로 분리하는 토론 주제 분리(topic segmentation) 모델 CSseg(Conceptual Similarity-based segmenter)를 제안한다. 발화 간 유사성을 나타내는 개념적 반복의 개념적 유사도와 토론자들의 상호작용으로 나타나는 내적 일관성에 영향을 주는 속성들이 주제 분리와 관계가 있을 것이라는 연구 질문을 갖고 연구를 진행한다. 연구 질문을 기반으로 CSseg는 개념적 유사도들을 응집하는 계산 방법들을 통해 주제 분리를 한다. 그리고 토론의 내적 일관성에 영향을 주는 메트릭들인 타인연속성, 자기연속성, 주장과 반박의 연쇄, 사회자의 주제 제시 성질을 개념적 유사도에 적용하여 CSseg의 주제 분리 결과에 영향을 준다. CSseg는 사용자에게 개념적 유사도를 응집시키는 유사성 응집도 계산 방법과 토론의 일관성 메트릭들의 가중치를 조절하도록 하여 사용자 중심의 주제 분리 결과를 제공하고, 이를 통해 토론 및 다자 간 담화에서 사람마다 주제 분리 지점을 다르게 판단하는 문제점을 완화하는 접근법을 취한다. 본 연구에서는 한국어 TV토론 프로그램인 MBC 100분 토론 대본을 사용해 CSseg에 대한 프로토타입을 구현했다. 프로토타입을 통해 CSseg가 사람들이 주제 분리하는 결과와 얼마나 일치하는지 평가하고, 나아가 기존의 다자 간 담화에 대한 주제 분리 모델 LCseg(Lexical Cohesion-based segmenter)와의 비교 평가를 통해 양호한 결과를 얻었다. 그리고 토론의 일관성 메트릭들에 대한 유스 케이스 분석을 통해 토론의 내적 일관성에 영향을 주는 속성에 따라 나뉘는 소주제들을 분석했다.
Alternative Abstract
We propose a topic segmentation model, CSseg(Conceptual Similarity-segmenter), in debate based on conceptual recurrence and debate's consistency metrics. We have research question that conceptual similarity of conceptual recurrence and debate's consistency metrics have relations to topic segmentation. The conceptual similarity is a similarity between utterances in conceptual recurrence analysis. And debate’s consistency metrics represent debate's internal coherence properties to maintain debate's topic by interactions between participants. Based on the research question, CSseg segments transcript by similarity cohesion methods which are formed by conceptual similarities. And CSseg’s topic segmentation is affected by applying weights to conceptual similarities having debate's internal consistency properties including other-continuity, self-continuity, chains of arguments and counterarguments, and the topic guide of moderator. CSseg provides a user-driven topic segmentation by allowing the user to adjust the weights of the similarity cohesion methods and debate's consistency metrics. It takes an approach that alleviates the problem of judging the topic segments differently for each person in debates and multi-party discourse. We implemented the prototype of CSseg by utilizing the Korean TV debate program ‘100-minutes debate’ and analyzed results by use cases. We compared CSseg and previous other model LCseg(Lexical Cohesion-segmenter) with evaluation metrics Pk, WD. CSseg had over performance than LCseg in debates.