Malware Dataset Availability & Inherent Bias Study

Warren Thompson; Talal Elammas; Mahesh Kalappattil; Anthony Rizi; Greg Sunderland; Leonardo Baldizon; Frank Posluszny; Yong Wang

doi:10.1109/eIT60633.2024.10609911

Conference paper

Malware Dataset Availability & Inherent Bias Study

Warren Thompson, Talal Elammas, Mahesh Kalappattil, Anthony Rizi, Greg Sunderland, Leonardo Baldizon, Frank Posluszny and Yong Wang

IEEE International Conference on Electro Information Technology, pp.202-208

IEEE

2024 IEEE International Conference on Electro Information Technology (eIT) (Eau Claire, WI, 05/30/2024–06/01/2024)

05/30/2024

DOI: https://doi.org/10.1109/eIT60633.2024.10609911

Appears in Artificial Intelligence and Machine Learning Research

Abstract

Computer viruses

Hardware

Malware

Tagging

Trojan horses

Computer Security

Machine Learning

Research in malware analysis faces significant challenges, especially when dealing with datasets. The limitations imposed by outdated malware samples and inaccurate tagging restrict the utility of specific malware datasets for research. This paper undertakes a comprehensive examination of malware datasets, aiming to enhance our understanding of cyber threats and strengthen cybersecurity strategies. We identified 27 datasets that satisfied our criteria. Three of those datasets were selected for further enumeration using VirusTotal's API for malware analysis. The method presented here systematically evaluates and categorizes those datasets, considering a number of factors such as the availability of raw samples, temporal relevancy, and sample quantity. Examining the datasets through quantitative methods exposes nuanced biases associated with temporal factors, file types (e.g., .exe, .elf), hardware architectures (e.g., ARM, x86, x64), and distributions across various malware categories (e.g., trojan, droppers, spam). These insights are crucial for researchers and cybersecurity professionals who intend on employing machine learning models that may be susceptible to bias that may be present.

Files and links (1)

url

Article Landing PageView

Metrics

1 Record Views

Details

Title: Malware Dataset Availability & Inherent Bias Study
Creators: Warren Thompson - Dakota State University
Talal Elammas - Dakota State University
Mahesh Kalappattil - Dakota State University
Anthony Rizi - Dakota State University
Greg Sunderland - Dakota State University
Leonardo Baldizon - Dakota State University
Frank Posluszny - Mitre (United States)
Yong Wang - Dakota State University
Publication Details: IEEE International Conference on Electro Information Technology, pp.202-208
Conference: 2024 IEEE International Conference on Electro Information Technology (eIT) (Eau Claire, WI, 05/30/2024–06/01/2024)
Publisher: IEEE
Number of pages: 7
Identifiers: 996870656801851
Academic Unit: Computer Science
Language: English
Resource Type: Conference paper