최근 인공지능 기술이 발달함에 따라, 자연어 및 이미지 처리 기술이 활성화되고 있다. 특히, 자연어처리 분야에서는, TTS나 음성인식 텍스트, 감성분석의 분야가 두각을 드러내고 있으며, 이 중 감성분석 분야는 논문, 뉴스기사 등 전문가가 작성한 정형화된 형식의 방대한 데이터를 제공받을 수 있다는 점에서 다양한 분야에 활용되고 있다. 그러나, 감성분석 분야는 전통금융, 사회 등 기존에 구축된 방대한 학습사전(Corpus)을 활용하여 감성분석을 진행할 수 있지만, 가상자산과 같은 새로운 분야에 대해서 좋은 성능의 감성분석을 진행하려면, 기존 분야에서 사용되었던 만큼의 방대한 학습사전이 필요하다. 따라서, 본 논문에서는 Apache Airflow라는 Scheduler 기반 Data Orchestration 오픈소스를 활용하여, 하루마다 새로운 분야에 대한 학습사전 분류모델을 적용하며, AWS EC2를 활용해 자동으로 갱신하여, 자연어처리에 사용될 학습 사전을 강화하고자 한다.
Alternative Abstract
With the recent development of artificial intelligence technology, natural language and image processing technologies are being activated. In particular, in the field of natural language processing, TTS, voice recognition text, and sentimental analysis stand out, and among them, the field of sentimental analysis is used in various fields in that it can receive a large amount of formal data written by experts such as papers and news articles. However, in the field of sentimental analysis, sentimental analysis can be conducted using the existing vast learning Corpus such as traditional finance and society, but in order to proceed with sentimental analysis of good performance in new fields such as virtual assets, a vast learning corpus is needed. Therefore, this paper intends to strengthen the learning corpus to be used for natural language processing by applying a learning pre-classification model for new fields every day using a scheduler-based Data Orchestra open source called Apache Airflow and automatically updating it using AWS EC2.