그린 데이터 센터 구축 등 그린IT 달성을 통한 육군 정보체계 분야의 기술 발전에 이바지하고자, 저장장치의 효율적 사용방안인 데이터 압축과 중복제거 기법에 관해 연구하였다. 저장장치의 공간을 절약하는 방법인 많은 데이터 압축 알고리즘과 중복제거 기법들은 사용자의 실제 시스템 환경과 주로 사용되는 데이터의 특성에 따라 성능에 많은 차이를 보인다.
본 논문에서는 다양한 실제 환경의 각종 영향요소들을 고려하여 데이터의 효율적인 저장과 신속하고 효과적인 전송/공유를 위한 최적의 데이터 압축 및 중복제거기법 선택 방안을 제시한다. 실험 결과, hwp, gif, jpg, exe는 압축 효율이 거의 없으나, 이를 간과하고 파일을 압축/전송할 경우, 비효율적인 압축에 소비된 시간이 포함되므로 전체 파일 이용시간(파일압축 +전송+저장시간)은 압축하지 않은 파일보다 길어졌다. 또한, 중복제거 기법은 중복되지 않은 자료만을 저장하므로 요구되는 저장장치 비율을 줄일 수 있지만 실험 결과, html파일과 hwp파일의 예와 같이, 파일 종류에 따라 chunk size변화에 따른 De-Dup시간 차이가 15배 이상 나타났으며, meta data(hash table, chunk)로 인해 특정 파일들은 그 크기가 증가하였다.
이러한 문제들을 해결할 수 있는 최적 알고리즘 선택 모델은 사용자의 시스템 및 네트워크 환경을 입력값으로 받아 각종 알고리즘별, 파일종류별 압축률(혹은 중복제거율)과 압축시간(혹은 중복제거시간)에 대한 정보를 바탕으로, 대상 파일의 예상 압축시간(혹은 중복제거시간)을 예측하여 가장 효율적인 알고리즘을 제안하므로 사용자의 보다 효율적인 저장장치 활용을 도울 것이다.