데이터 마이닝은 대용량의 데이터 속에서 의미 있는 패턴이나 규칙을 찾아내어 유용한 지식으로 활용하기 위하여 데이터를 탐색하고 분석하는 과정이다. 본 연구에서는 데이터 마이닝 기법들을 활용하여 교통사고 피해자의 상해 심각도 수준을 예측하는 모델을 구축 하였다.
상해 심각도는 ‘상해 없음’, ‘상해 가능’, ‘불구 없음’, ‘불구 있음’, ‘치명적 상해’, ‘알 수 없음’ 등의 6 단계의 수준으로 구분되는데, ‘상해 없음’은 전체 데이터의 70% 정도를 차지하지만, ‘치명적 상해’는 전체 데이터의 1% 정도밖에 차지하지 않는 등 상해 심각도가 심한 불균형 분포를 보이고 있다. 이러한 불균형 데이터에 대해서 데이터 마이닝 기술을 단순하게 한 번 적용하여 모델을 구축하고 예측을 수행하는 것은 모델의 적중률 면에서 신뢰성을 확보할 수가 없다.
그러므로 본 연구에서는 상해 심각도의 수준에 따라 데이터 마이닝 기법을 맞춤식으로 적용하여 상해 심각도 수준을 예측하는 앙상블 모델을 구축 하였다. 본 연구에서 구축한 앙상블 모델을 미국 NASS의 GES 2008년 교통사고 데이터에 적용하여 성능을 평가하였는데, 불균형 데이터임에도 불구하고 각 상해 심각도 수준별로 적중률이 비교적 균형을 이루는 결과를 보였다.