빅데이터(Big Data) 시대를 맞이하여 사회 각 분야에서 데이터 사이언스 활용에 대한 관심이 증가하고 있다. 이러한 흐름은 교육 분야에도 영향을 미쳤는데 2000년대 초반부터 학습자와 학습 환경에 대한 다양한 데이터를 수집, 분석하고, 그 결과를 활용하여 학습 환경을 개선하고 효과적인 학습을 지원하는 방안에 대한 연구가 시작되었다.
이러한 연구에는 학습 콘텐츠 추천, 학생의 학업 성과 예측, 학생들간의 소셜 네트워크 분석 등이 있는데, 해외의 경우 학업 성과 예측(Prediction)은 가장 활발하게 연구가 진행되고 있는 분야이다. 이에 반해 국내의 경우, 학습에 관한 다양한 데이터를 통합적으로 수집, 분석할 수 있는 환경적, 제도적 인프라가 구축되어 있지 않기 때문에 아직 연구가 활성화되지 못하고 있다.
본 연구에서는 한국의 대학 교육 상황에서 학생들의 성적을 학기 초(학기의 1쿼터 시점)에 조기 예측하는 모형을 구축하고 모형에 투입된 데이터의 종류에 따른 모형의 성능을 평가하였다. 이를 위해 학습과 관련된 네 가지 범주의 데이터, 즉 인구통계학 데이터, 학교 생활 데이터, 심리 데이터, 학습관리시스템(LMS)데이터를 수집, 분석하였고 시험 성적 예측을 위해 다중회귀모형을, 최종 성적이 C학점 이하인 위험그룹 학생을 예측하기 위한 의사결정트리 모형을 구축하였다.
연구 결과 조기 예측 모형을 개발함에 있어 일부 영역의 데이터만을 활용하는 것 보다는 다양한 측면(학습자 개인, 학습환경, 학습과정)을 반영하는 서로 다른 범주의 데이터를 통합적으로 이용할 때 모형의 예측력이 가장 높았고 이러한 결과는 수치형(성적) 예측과, 범주형(위험군) 예측에서 동일하게 확인되었다. 수치형(성적) 예측에서 최적 모형은 학년(인구통계학 데이터), 직전학기평점(학교 생활 데이터), LMS 접속간격일, LMS 접속지연일수, LMS 과제제출횟수, 난이도가 높은 과제에 대한 선호도(심리 데이터) 예측 변인을 포함하였고 범주형(위험군) 예측 모형에서는 성격 5요인 중 신경성(심리 데이터), 직전학기평점(학교 생활 데이터), 학년(인구통계학 데이터), LMS 접속간격일이 의사결정트리의 분할 기준으로 이용되었음 확인하였다.
한편, 본 연구 결과의 의의와 관련해서 모형 연구가 일반적으로 안고 있는 일반화 가능성에 대한 제한점이 존재한다. 연구 대상으로 삼은 표본은 특정 단과대학 소속 학생들만 포함되었고 학업 성과 역시 수학적 지식을 요하는 과목이라는 특수성이 고려되어야 하므로 연구 결과를 모든 전공 학생들과 과목에 적용하기에는 무리가 있을 수 있다. 이러한 문제점을 해결하기 위해서 학습 환경과는 독립적인 변인과 학습환경에 종속적인 변인들에 대한 가중치를 조정하여 동일한 문화권(국가)내에서 전공(단과대학)에 따라 모형을 세분화하는 수준에서 일반화 가능성에 대한 해결책을 모색해 볼 수 있을 것으로 생각한다.
향후 학습환경의 디지털화는 더욱 가속화 될 것으로 예상되고 그러한 미래 환경에서 데이터 사이언스를 활용하여 학습과정과 교육현장에서 직면하는 다양한 문제를 해결하는 것은 매우 중요한 연구 분야가 될 것으로 기대하며 본 연구가 향후 이 분야 연구의 발전에 작은 밑거름이 되기를 희망한다.