NCI(National Cancer Institute) 통계에 따르면 2012년 기준 820만 명이 암에 의해 사망하였고, 1,400만 명이 암 확진을 받았다. 또한 20년 후 암 발병 인원이 2,200만 명 까지 증가할 것이며 이에 따라 사망자도 늘어날 것이라 예측했다. 세계적으로 암을 완치하기 위한 연구가 다양하게 진행되고 있으며 대부분 임상연구를 기반하고 있다. 하지만 미국의 경우 암에 대한 연구 일환으로 암 환자들의 데이터를 1973년부터 축적하기 시작하였고, 데이터 기반 연구에 활용하기 시작하였다. 임상연구 중심적으로 연구가 진행되었던 암 연구는 질 좋은 데이터와 분석 가능한 기술이 마련됨에 따라 의료 빅데이터 분석연구와 함께 진행되는 추세로 전환되고 있다.
본 연구에서는 미국의 빅데이터인 SEER(Surveillance, Epidemiology, and End Results)데이터를 활용하여 국내 주요 5대 암인 폐암, 대장암, 유방암, 위암, 간암의 생존율을 요인 별로 분석할 것이다. 요인 별 생존율을 제공하여 환자의 특성을 치료시 전문의가 고려할 수 있고, 환자 또한 자신의 치료 방법을 선택하는데 참고할 수 있을 것이다.
분석에 사용된 데이터는 1973년부터 2012년까지 수집된 총 200만 건의 데이터이며 암 종류별 케이스 수는 위암 82,026건, 대장암 532,300건, 폐암 572,735건, 유방암 740,505건, 간암 41,771건이다. 요인 선정은 기존 연구들을 참고하여 생존율에 영향력이 높은 요인들로 암 별로 5가지에서 7가지 선정하였다. 선정된 요인들은 Age at Diagnosed, Sex, Race, Tumor Size, Grade, Surgery, Marital_Status이다.
분석기법으로는 Kaplan Meier기법을 활용한 누적생존율을 사용하였고, 이는 사건(사망)이 발생한 시점마다 구간생존율을 구하고 이들의 누적을 바탕으로 최종 누적생존율을 추정하는 방식이다. 이 기법은 요인별 생존율을 기간별로 확인하기 용이하고, 방대하고 다양한 요인의 비교 분석이 가능하다. 본 연구에서 제공하고자 하는 요인별 생존율을 도출하는데 가장 최적화된 기법이라 할 수 있다.
현재 국내 의료데이터의 경우 암 환자 데이터를 취합할 수 있는 표준서식이 준비되어 있지 않고, 개인정보보호와 같은 규범적 제약 때문에 활용하기 어려운 구조를 가지고 있다. 이번 연구는 미국의 SEER데이터를 활용하여 주요 5대 암 요인별 생존율 예측 시스템을 구현하고, 나아가 국내데이터로 확장하여 한국인에 특화된 맞춤형 의료 서비스가 실현될 수 있도록 하는데 의의가 있다.