인간의 유전 정보는 약 3×10^9 개의 염기 서열로 이루어져 있으며, 개인 간의 유의한 차이를 단일 염기 다형성(single nucleotide polymorphism, SNP)이라 한다. 이러한 유전 정보와 질병 유무 같은 표현형(phenotype) 사이의 연관성을 파악하는 것이 전장유전체 연관성연구(genome-wide association study)이다.
기존 단일 SNP의 연관성을 분석하는 과정에서 상위성(epistasis)의 발견으로 인하여 다수 SNP의 연관성을 분석하는 방법의 필요성이 제기되었다. 기존의 다수 SNP 연관성 분석 방법은 너무 긴 실행 시간을 필요로 하여, 실제 임상 자료에 대해서는 두 개 SNP의 연관성 분석으로 제한된다.
본 연구에서는 전장유전체 연관성연구에서 셋 이상의 고차 상위성 상호작용을 고속으로 탐색할 수 있는 알고리즘을 제안한다. 제안하는 방법은 모든 SNP들을 k-means 알고리즘을 이용하여 k개 그룹으로 클러스터링하고, 후보 SNP들을 선택하여 전체 탐색한다. 이때, 유전 정보와 표현형 사이의 연관성은 상호 정보량(mutual information)으로 측정한다. 또한, SNP 상호작용의 용이한 파악을 위하여 부울 식(Boolean expression)을 이용하여 작용 기전을 표현한다.
가상 자료(simulation data)를 바탕으로 제안한 방법과 기존 방법의 수행 시간과 정확도를 측정하였으며, 제안한 방법이 기존의 방법들 보다 짧은 수행 시간에 유사하거나 우수한 성능을 보임을 확인하였다. 또한, 제안한 방법을 실제 자료인 WTCCC 데이터 분석에 적용하여 유의미한 결과를 얻었다.