본 논문에서는 6개월 동안 연구실에서 모은 메일에 포함된 URL통계 분석을 바탕으로 스팸메일 필터링하기 위해 메일에 포함된 URL 통계 정보를 이용하는 메일 필터링 기법에 대해서 소개할 것이다. 본 논문에서 사용한 기법은 메일에 포함된 URL의 정보만을 참고하여 메일을 필터링하기 때문에 메일의 모든 내용을 참고하는 다른 스팸메일 필터링 방법보다 처리속도를 향상 시킬 수 있다. 그 뿐만 아니라 본 논문에서 사용한 기법은 사용자의 피드백을 받아 동적으로 업데이트하기 때문에 잘못된 학습 집단 선택으로 인한 문제점도 해결 할 수 있다.
Alternative Abstract
This paper presents a unique spam mail filtering technique based on a deep analysis of statistics on URL’s included in various e-mails gathered from a laboratory in a university for about six months. Since the proposed mail filtering technique searches only URL’s in mail, the overhead introduced by searching all mail contents or black list utilized by many other mail filtering algorithms is significantly reduced. In addition, the proposed filtering technique dynamically updates URL list through client feedback, and the bias possibly introduced by selecting bad training mail set can be eliminated as the filtering process is progressed.