GAN과 Transformer 모델을 활용한 자연어 생성 연구

Alternative Title
Ma Bohyeon
Author(s)
마보현
Alternative Author(s)
Ma Bohyeon
Advisor
손경아
Department
정보통신대학원 지능형소프트웨어
Publisher
The Graduate School, Ajou University
Publication Year
2020-08
Language
kor
Keyword
BERTGANNLGNLPTransformerWGANWGAN-GPdeep learninggumbel-softmax생성모델자연어생성자연어처리
Abstract
본 논문은 생성모델인 GAN(Generative Adversarial Network)과 최근 자연어 처리 분야에서 state-of-the-art를 갱신하고 있는 BERT(Bidirectional Encoder Representations from Transformer)의 기반이 되는 트랜스포머(Transformer) 모델을 사용하여 자연어를 효과적으로 생성하는 방안을 찾기 위한 연구이다. 특히 영상 처리 분야와는 달리, 그동안 자연어 생성에 GAN을 적용하는 연구는 상대적으로 활발하지 못하였으며, 이는 불연속적인 토큰(단어)으로 구성된 자연어의 특성과 학습이 불안정한 GAN의 특성에 기인한다고 볼 수 있다. 이로 인해 GAN을 이용하여 자연어 문장을 생성하는 경우, 동일한 어휘로 이루어진 하나의 문장만 반복적으로 나타나는 이른바 모드 붕괴(mode collapse) 현상이 발생한다. 또한, 학습이 진행될수록 이런 현상이 개선되는 것이 아니라 오히려 더 심해지는 문제가 존재한다. 따라서 본 연구에서는 GAN을 적용한 자연어 생성의 어려움을 극복하기 위해서, 기존에 연구된 다양한 기법들을 적용하였으며, GAN을 이용하여 안정적으로 자연어 문장을 생성할 수 있다는 것을 실험을 통해서 확인할 수 있었다. 우선 GAN의 생성자(generator) 네트워크의 자연어 출력 부분에 검벨 소프트맥스(Gumbel-softmax) 함수를 적용해서 불연속적인 이산형 데이터인 토큰을 GAN 네트워크에서 처리가 가능한 연속적인 형태로 변환하였다. 다음으로 불안정한 GAN의 학습을 개선하기 위해서 판별자(discriminator) 네트워크의 손실함수로 와서스테인(Wasserstein) 함수에 기울기 페널티(Gradient Penalty) 항을 추가한 WGAN-GP(Wasserstein GAN-Gradient Penalty) 모델을 적용했다. 이를 위해서 입력 부분에 미분이 불가능한 토큰 임베딩 레이어를 채택하고 있는 기존의 트랜스포머 모델을 수정해서 미분이 가능한 레이어로 교체하여 적용했다. 하지만 위와 같이 직접 트랜스포머 모델을 수정하여 적용함으로써, 결과적으로 트랜스포머 모델의 장점인 대규모 말뭉치를 이용해서 사전학습된 공개 모델을 활용하여 파인튜닝(fine-tuning)을 통해 성능을 향상할 수 있는 전이학습(transfer learning) 기법을 적용하지 못했다는 점과 이로 인해 생성된 자연어의 품질이 기대만큼 높지 않았다는 점은 아쉬움으로 남는다. 이 부분은 향후 BERT나 GPT-2(Generative Pre-Training-2)와 같이 최근 자연어 처리 분야에서 주목받고 있는 트랜스포머 기반의 모델을 응용하여 대규모 말뭉치를 이용한 사전학습을 통해서 개선할 수 있을 것으로 기대된다. 앞으로 지속적인 자연어 생성 품질 향상을 통해서, 다양한 분야에서 부족한 학습 데이터의 대량 확보나 시뮬레이션 환경 구축 등에 GAN이 본격적으로 활용될 수 있을 것으로 기대해 본다.
URI
https://dspace.ajou.ac.kr/handle/2018.oak/19807
Fulltext

Appears in Collections:
Special Graduate Schools > Graduate School of Information and Communication Technology > Intelligent Software > 3. Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse