차세대 네트워크 기술의 발전으로 다양한 IoT(Internet of Things) 기기들이 초대규모로 상호 연결됨에 따라 Massive IoT 기기 내 보안위협을 악용하여 초연결 네트워크에 대한 공격을 수행하는 리눅스 악성코드가 발생하고 있다. 이와 같은 리눅스 악성코드의 잠재적 위협을 판단하고 효율적으로 대응하기 위해 실행된 코드 분석을 통한 악성코드 분류가 필요하지만 이기종 아키텍처별 분석을 별도로 수행해야 하는 한계가 존재한다. 그러나 Binary Lifting을 수행함으로써 이기종 아키텍처의 바이너리 코드를 동일한 표현의 IR(Intermediate Representation)로 나타낼 수 있으며, IR 내에는 어셈블리 코드의 기능 및 사용한 인자가 저장되기 때문에 악성행위 정보를 확인할 수 있다.
이에 따라 본 논문에서는 리눅스 악성코드에 대하여 Binary Lifting 수행 결과인 IR을 통해 특징 정보를 추출하고 시퀀스 학습에 적절한 LSTM(Long Short-Term Memory) 딥러닝 모델로 학습함으로써 이기종 리눅스 악성코드를 분류하는 기법을 제안하였다.
이를 통해 다양한 아키텍처의 리눅스 악성코드에 대하여 효율적으로 악성코드 분류할 수 있으며, 실행 코드 외 분석 기법 대비 높은 정확도를 보였다. 본 제안 기법은 추후 발생 가능한 신종 및 변종 리눅스 악성코드 탐지 및 분류를 목표로 한다.
Alternative Abstract
With the development of network and data processing technology, various IoT devices are interconnected at massive scale, resulting in linux malware that exploits security threats within massive IoT devices to attack hyper-connected networks. To determine and efficiently respond to such potential threats from linux malware, malware classification through executed code analysis is necessary, but there is a limitation to perform separate analysis by heterogeneous architecture. However, binary lifting allows binary code in heterogeneous architectures to be represented as IR of the same format, and malicious behavior information can be identified because the information about functionality of assembly code and the used parameters is stored within the IR.
Accordingly, in this paper, we propose a technique for classifying heterogeneous linux malware by extracting feature information through IR, a binary lifting performance result for linux malware, and learning with an appropriate LSTM deep learning model for sequence learning.
This enables efficient malware classification for linux malware in various architectures, with higher accuracy compared to existing classification methods. This proposed method aims to detect and classify new and variant linux malware that may occur later.