Hadoop은 Big Data의 산업표준이 되면서 Data Mining 플랫폼으로서 진화하였고 수년에 걸쳐 HDFS 성능의 향상 폭이 증대되어 Hadoop 클러스터의 점진적인 성장으로 이어졌다. 대표적인 Hadoop 클러스터로서 Yahoo는 4,000노드와 15 Petabyte 규모로서 세계에서 가장 큰 Hadoop 클러스터를 구축하였다. 2009년에 Yahoo에서 HDFS의 데이터 무결성을 실험했고 Hadoop 0.20.3으로 구동한 실험에서 네임노드는 18개월 동안 클러스터 25개 중에 22개에 장애가 발생하였는데 이는 연간 58%의 장애로서 오류 및 장애가 적지 않은 비율로 발생하고 있다. 장애의 주요요인은 가용성 및 신뢰성에 대한 네임노드의 취약성으로서 최신의 Hadoop 버전에서도 여전히 해결되지 않고 있다. 네임노드의 취약성을 극복하기 위해 본 논문에서는 Hadoop Namenode의 고가용성 및 고신뢰성 향상을 위한 멀티마스터 및 펜싱기법 응용구조를 제안하였다. 고가용성 및 고신뢰성을 위한 분산시스템의 구조를 분석하고 용어를 정의하였고 고가용성 및 고신뢰성을 위한 네임노드 관련 기존 사례연구, 유사구조인 데이터베이스와 관련 솔루션 등을 살펴보았다. 본 논문에서의 제안을 구체적으로 달성하기 위한 방안으로 고가용성을 보장하기 위한 멀티액티브인 멀티마스터 구조에 복제기법과 부하분산을 위한 분산배치기법이 가미된 조합과 고신뢰성을 보장하는 펜싱기법과 펜싱을 고려한 클러스터링기법이 가미된 조합이 필요하다. Replica와 Quorum 조정을 통해 CAP Theorem의 Consistency, Availability, Partition Tolerance 등 3가지 모두 만족하게 됨을 확인하였다. 고가용성 및 고신뢰성 향상을 위한 멀티마스터 구조에 속하는 특성을 가진 데이터베이스를 이용하여 예상되는 효과를 간접적으로 보여주는 유사구조인 데이터베이스에서 실험을 통해 제안하는 아키텍처가 고가용성 및 고신뢰성을 보장할 수 있음을 검증하였다.
Alternative Abstract
Hadoop is a de facto standard in big data and evolved as a data mining platform. Improving of Hadoop performance over the years leads to gradual growing of the Hadoop cluster. Yahoo has 4,000 nodes with 15 petabytes storage and it is largest cluster in the world. For 18 months Yahoo examined data integrity of Hadoop running 0.20.3. They found 22 failures of 25 clusters means 58% failure per year. It causes namenode failure to system halt and cluster shutdown and still was not resolved even latest Hadoop. In this paper, we proposed multimaster namenode architecture with fencing technique to overcome vulnerabilities of namenode for high availability and high reliability. We can improve high availability and high reliability for namenode by applying the proposed architecture which combines multimaster namenode, replication and synchronization, and distributed relocating technique of data for load balancing for high availability and fencing technique for high reliability. It leads to the need of the structural analysis regards to the distributed system and of clarify terminology, existing case studies, databases and related solutions as structural resemblance. The proposed architecture can make adjustments to coordinate number of replicas and quorum. It can be satisfied consistency, availability, and partition tolerance. Database has structural resemblance to applying to multimaster structure and fencing mechanism for availability, reliability, and consistency. Databases using the same structural analogy can be efficient methods of testing and it can show expected benefits of the proposed architecture indirectly. It is validated that proposed multimaster namenode architecture ensures high availability and high reliability.