단백질-단백질 상호작용(PPIs, protein-protein interactions)은 세포 내에서 방대한 네트워크를 이루는 기능적인 핵심 단위이며, 각 세포의 기능 및 상태는 세포 내 PPIs 네트워크 구성에 따라 달라진다. 현재까지 공개된 대부분의 PPIs 데이터베이스에는 개별 PPI가 관찰된 세포조건에 대한 주석정보가 부재하며, 이는 특정 세포의 PPIs를 정확히 이해하는데 제약점이 되고 있다. 한편, 유전자 발현 프로파일(GEP, gene expression profiles) 데이터는 여러 세포조건을 가지고 있지만 이를 이용한 조건 특이적인 PPIs 예측정도를 조사한 연구는 많지 않다.
본 연구에서는 줄기세포 및 종양세포에서 조건 특이적인 PPIs 데이터를 구축하고, 이 중 배아 줄기세포(ESC, embryonic stem cell)의 GEP 를 이용한 ESC-특이적 PPIs 예측정도를 여러 정규화 방법 (Normalization methods) 및 유전자 공동 발현패턴 (Gene co-expression pattern) 측정법을 통해 종합적으로 비교분석하였다. 이를 바탕으로 GEP 데이터를 이용한 유전체 수준의 조건 특이적인 PPIs를 예측하는데 있어 적합한 방법론을 제안하는데 그 연구목적이 있다.
조건 특이적인 PPIs 데이터 구축을 위해 주요 공개 PPIs 데이터베이스를 통합한 후, 논문초록에서 줄기세포 및 종양세포 관련 키워드로 모두 검색하였다. 이어, 논문들을 직접 큐레이션한 후 개별 PPI에 줄기세포 및 종양세포의 세부 종류(subtype)까지 주석정보를 추가하였다. GEP 데이터는 NCBI GEO 에서 수집한 후, 실험대상을 관심 세포조건별로 정리하였다. 그 중 ESC에 해당하는 GEP 데이터를 6가지 정규화 방법으로 전처리하고, 각각의 데이터를 이용하여 ESC-특이적 PPIs의 공동발현 정도를 6가지 측정방법으로 계산하였다. 공동발현 측정결과는 ESC-특이적 PPIs, 일반적인 조건에서의 PPIs (General PPIs), GEP 데이터에서의 임의 유전자 쌍 그리고 단백질 상호작용이 없는 유전자 쌍에 걸쳐서 비교하고, ESC-특이적 PPIs 에서 가장 높은 발현 연관성을 가지는 동시에 General PPIs 의 발현 연관성과 가장 유의한 차이를 보이는 정규화 및 공동발현 측정법을 선정하였다.
먼저, 구축된 조건 특이적인 PPIs 데이터는 총 4,161의 단백질과 8,347 개의 단백질 상호작용으로 구성되며, ESC의 경우 371 개의 단백질과 603 개의 상호작용에 해당하며, 이는 기존에 알려진 줄기세포 중 가장 큰 네트워크이다. 정규화 및 전처리된 ESC 조건의 GEP 데이터를 가지고 여러 공동발현 측정법을 비교한 결과, Human 에서는 Quantile 방법과 MIk 방법이, Mouse에서는 추가 정규화하지 않은 MIk 방법이 가장 유의하게 나타났다. 유의한 전체 방법을 비교한 결과 Boundary 정규화 방법과 상호정보량에 기반한 공동발현 측정법 (MI, MIk)이 ESC-특이적 PPIs 를 예측하는데 적합하다고 제안할 수 있다.
본 논문에서는 조건 특이적인 PPIs 데이터를 구축한 후 GEP 데이터를 이용한 조건 특이적인 PPIs 예측할 수 있는 방법을 종합적으로 비교분석하였다. General PPIs와 발현 연관성에서 유의한 차이가 있는 ESC-특이적 PPIs는 배아줄기세포의 고유기능을 이해하는데 참고할 수 있으며, 구축한 조건 특이적인 PPIs 데이터는 여러 세포 조건에서 새로운 PPIs를 예측하기 위한 중요한 참고자료로써 활용될 수 있다.