데이터 마이닝은 대용량의 데이터 속에서 의미 있는 패턴이나 규칙을 찾아내기 위하여 데이터를 탐색하고 분석하는 과정이다. 본 연구에서는 다양한 데이터 마이닝 기법들을 이용하여 교통사고 피해자의 상해 심각도를 예측하는 모델을 구축하였다.
본 연구에서는 미국 NASS의 GES 2008년 데이터를 사용하였는데, GES 데이터가 제공하는 8개의 상해 심각도 수준 중에서, ‘상해 없음’, ‘상해 가능’, ‘불구 없는 상해’, ‘불구 있는 상해’, ‘치명적 상해’로 총 5개의 수준을 대상으로 분석하였다. GES 데이터의 상해 심각도 수준은 그 발생 건수에서 심한 불균형을 보이고 있다. 발생 건수가 가장 많은 ‘상해 없음’은 약 70%를 차지하는데 반해, 가장 적은 ‘치명적 상해’는 0.4%밖에 되지 않는다. 이와 같은 불균형 데이터에 단순하게 한 가지의 데이터 마이닝 기법을 사용하여 모델을 구축하면, ‘상해 없음’의 경우에는 적중률이 90% 이상 나오지만 ‘치명적 상해’의 경우에는 0%가 나온다. 또한 상해가 있는 레코드임에도 불구하고 ‘상해 없음’으로 분류되는 ‘Type Ⅰ Error’가 발생한다. 이러한 문제점이 포함된 모델을 현실의 교통사고에 적용하게 되면 사고 피해자에게 적절한 후속조치를 적시에 제공할 기회를 놓치게 되어 심각한 피해를 줄 수가 있다.
그러므로 본 연구에서는 상해 심각도의 수준 간의 불균형을 해소하고자 Undersampling 기법을 사용하고, 상해 심각도 수준에 따라 적합한 데이터 마이닝 기법을 달리 적용하여 하이브리드 모델을 구축하였다. 그 결과, 기존의 어느 연구보다도 우수한 성능의 모델을 구축하였다. 기존 연구에서 40%대의 적중률에 그쳤던 ‘치명적 상해’의 경우에 본 연구에서는 95.9%의 월등한 적중률을 보였고, ‘상해 없음’의 경우에도 기존의 어느 연구보다도 높은 88.8%의 적중률을 보였다.