현재 주요 병원 및 공공기관에서 의료 빅데이터의 규모와 다양성이 증가함에 따라 많은 연구자들이 빅 데이터 기반 의학 연구를 활발히 진행하고 있다. 오랜 기간 동안 유전자 데이터 및 단백질 데이터와 같은 생물학 기반 빅 데이터를 활용한 질병 네트워크 구축은 많았지만 임상 데이터 기반으로 질병 네트워크 구축을 한 사례는 적다. 뿐만 아니라 임상 데이터 기반으로 네트워크를 구축했더라도 데이터의 불완전성, 국내 환자에 대입하기 힘든 해외 데이터, 네트워크 구축 시 중요한 위험 인자 배제 등 여러 가지 한계점이 존재했다. 그래서 본 연구에서는 국민건강보험공단에서 제공하는 표본연구 데이터베이스를 활용하고 질병 발병에 중요한 원인이 되는 위험 인자들을 보정하여 국내 맞춤의 신뢰성 있는 질병 네트워크를 제공하고 더 나아가 질병 네트워크의 구조적 특징을 분석하여 질병의 패턴 및 중요성 정보를 제시하고자 한다.
선행질병이 후행질병 발병의 위험 인자로써 영향을 준다는 전제하에 국민건강보험공단 표본연구 데이터베이스의 2002년부터 2013년까지의 환자들의 발병 순차 데이터를 활용하여 질병간의 연결성을 분석하였다. 많은 질병의 발병 위험 인자인 성별, 나이 그리고 방문 시기를 정확 매칭을 통해 보정하고 피셔의 정확성 검정을 통해 유의성 검정을 거쳤다. 네트워크의 구조적 특징 및 질병의 역할을 분석하기 위해 커뮤니티 탐지와 중심성 계산을 진행하였다.
그 결과, 839개 질병과 2,757개의 연결성으로 이루어진 질병 네트워크를 구축하였다. 뇌전증, 무과립구증과 같이 여러 질병의 발병의 원인 또는 결과가 되는 것으로 밝혀진 질병들이 네트워크 상에서 많은 연결성을 가지고 있었으며 서로 영향을 많이 주는 것으로 알려진 정신 및 행동 장애 질병들 경우 네트워크 상에서도 서로 많이 연결된 것을 확인할 수 있었다. 5개의 중심성을 계산한 결과 파종성 혈관내응고가 모든 중심성에서 상위에 위치해있었고 통합 중심성에서도 가장 높은 것으로 나왔다. 커뮤니티 탐지 결과 4개의 대표 커뮤니티들을 발견할 수 있었고 각 대표 커뮤니티들은 질병 분류, 성별, 나이와 같은 요인들로 군집화 된 것이 아니라 보험 청구 데이터 분석에서 나온 질병 패턴 기반으로 구성된 것을 확인할 수 있었다.
국민건강보험공단 표본연구 데이터베이스 기반으로 질병 네트워크를 구축함으로써 기존 알려진 질병간의 연결성 또는 질병의 특성을 재확인하고 더 나아가 질병의 군집화 및 패턴을 다각도로 제공함으로써 임상의에게 진단에 대한 도움을 줄 도구로써 활용될 것으로 기대된다.